并行文件系统,通常存储海量文件,备份不容易,应为文件太多了,扫描文件就好久啊。基本的处理方法:
1. 文件系统分区分块,配合多个备份client进行并行备份。
2. 越来越多的文件系统支持快照等高级功能,或者存储硬件底层支持快照,采用快照搞定之。
3. 有的并行文件系统能够快速扫描变更,像GPFS. GPFS是个好东东,配置简单,稳定好用; 对于备份方案特别好的是它有个超快的扫描引擎,能快速的扫描那些文件有变更,需要备份,然后将需要备份文件列表分块,丢给不同的gpfs node(安装了tsm ba client)并行备份到单个或多个TSM server。
还有其他的玩法是GPFS+TSM实现HSM,分层数据管理,GPFS中的数据满足一定条件,或者按照一定的GPFS策略自动迁移到TSM,用户端感觉GPFS像一个海量空间。
具体架构等细节,可参考:
http://www-01.ibm.com/support/docview.wss?uid=swg27018848
http://files.gpfsug.org/presentations/2015/SBENDERGPFS_UG_UK_2015-05-20.pdf
INFN-CNAF使用经验
收起