TSM 备份大批量小文件是否有更好的办法?

客户现场有一台power的主机上有将近1亿个小文件,平均大小是300k到16M不等。共计将近5T数据量,现在备份一次需要4天,这个是否有更好的办法来处理。客户要求保留14天每周一个版本全备,每天增量。...显示全部

客户现场有一台power的主机上有将近1亿个小文件,平均大小是300k到16M不等。共计将近5T数据量,
现在备份一次需要4天,这个是否有更好的办法来处理。
客户要求保留14天每周一个版本全备,每天增量。

收起
参与34

查看其它 3 个回答Jerry Miku的回答

Jerry MikuJerry Miku其它The Global 500

摘一段我以前的回复,供参考

关于大量碎片文件的备份,目前行业内没有特别直接有效的方法,即使是成本较高的存储级别复制,也难以达到长期保留的目的。此前借交流会和国外的容灾和业务专家谈及这一点的时候,他们也表示在国外过去的十几年里也存在这种问题,但现在已经想办法规避了,规避的原则是正规化业务、优化小文件的存取方式,减少小文件的数量。国内之所以这个有问题尤为明显,很大原因是业务模式不规范且固定,很难整体优化改善,加上是历史问题,动刀起来很麻烦。

   个人维护过的备份容灾系统,也有财大气粗的大企业直接拿存储来做复制,利用两套存储来达到长期保留的目的。但一般类似影像录音文件或者话单文件,几乎都是要永久保存的。从长远眼光来看,这种做法维护成本高,且效率不是特别理想,属于高投入低回报的措施,可总归是一种解决办法吧。

   再者,很多公司考虑NDMP备份,虽然说这个做法屏蔽了一部分影响备份效率的因素,但归根到底,根本原因没有完全改善。相对于直接拿存储做复制来说,算的上一种低廉但有效的措施。

   最次,一些对安全性完整性要求不太高的公司,干脆搞一套NAS让这些头疼的碎片文件自个儿乐,不备份!这一种做法,哈哈,算破罐子破摔了。



  最后说说我推荐的做法,我们先从根本讲起:

1,海量小文件为什么让人头疼?

  望文知意,文件小、数量多,那么读写效率必然低,积少成多之后问题越放越大,最后就是一块烫手的山芋。

2,常规的三种做法问题在哪儿?

  存储复制,成本高,效率低,文件系统大了,仅这一项保存方案就是一笔不小的开支,但高投入也并没有带来多大的回报,勉强是完成了任务。

  NDMP备份,治标不治本,但成本较低,对于中小型公司来说,不失为一种有效的做法。

  NAS保存,数据的安全性完整性低,用句调侃的话来说--“你就自个儿偷着乐吧,乐出事来就拜拜了”。

3,改善方向?

 从根本原因入手,小文件,那就聚合成大文件;海量,那就分门别类方便读写,然后尽可能避免和减少数量。说到底海量小文件还是早期业务不规范导致,现在规模大了也不好改善。但对于这个问题改善的方向,只可能是优化文件的存取方式,尽可能减少其规模。

4,个人推荐的折中做法

  此前一直接触运营商的业务系统比较多,运营商的话单、录音和保险里的影像文件差不多,所以基本可以混为一谈。

  运营商的话单和录音文件,大的话一天上TB,小的也有500G上下,存取方式也没有规律。后来建议客户改善存取方式,话单按天按系统类别存放、录音按业务系统通道划分。备份方面,当天备份昨天的话单和录音文件,因为优化了存取方式,所以备份前对各类文件tar打包。相比与直接备份小文件,利用主机的高性能来tar包形成大文件,大大降低了备份和恢复的时间,提升整体效率。备份完成了tar就可以删除,也不会额外占用空间。恢复时,只要定位了系统类别就可以快速找到需要的文件,恢复整个tar包的速度会非常快,解压的效率全压在主机上,相对于传统做法也改善不少。



  解决整个问题的思路,源于二叉树的快速存取模型。参考二叉树模型,把海量小文件细分,方便查询和业务复验要求。然后从最高深度将一定规模的二叉树父节点和子节点全部打包,这样就能形成一定数量大小的二叉树节点,这样在不改变业务系统整体架构的情况下,也改善了海量文件的备份容灾问题。

 有兴趣的话,可以参考一下,个人认为还是比较物美价廉的解决方案。

  
IT其它 · 2017-10-20
浏览3015

回答者

Jerry Miku
其它The Global 500
擅长领域: 存储备份灾备

Jerry Miku 最近回答过的问题

回答状态

  • 发布时间:2017-10-20
  • 关注会员:5 人
  • 回答浏览:3015
  • X社区推广