对于数据量庞大的非结构化数据,如何选择合适的备份方法和备份工具?

对于数据量庞大的非结构化数据,如何选择合适的备份方法和备份工具?
数据量100TB以上,文件大小从500KB~10MB不等。

参与33

3同行回答

nkj827nkj827项目经理长春长信华天
对于存储在传统NAS文件系统上的文件类数据,如果用通用的备份方法只能通过文件复制的方式来实现其全量和增量备份。但是随着日积月累的非结构化数据增长,这类数据可能会从TB级别发展到10TB甚至PB级别。这类数据存储组织的方式是文件系统的树目录形式,随着数据的增加,其目录的...显示全部

对于存储在传统NAS文件系统上的文件类数据,如果用通用的备份方法只能通过文件复制的方式来实现其全量和增量备份。但是随着日积月累的非结构化数据增长,这类数据可能会从TB级别发展到10TB甚至PB级别。这类数据存储组织的方式是文件系统的树目录形式,随着数据的增加,其目录的深度和规模也会呈现剧增趋势。备份软件在扫描文件目录的时候会变得非常非常慢,最终导致备份作业慢到超过备份窗口的程度。

2 业务管理层面的解决方案
如果从业务管理层面来解决该问题的话,那么就是要让备份作业在一定时间段内保持在合理的数据量范围之内,也就是说要形成合理的多级数据缓存,根据数据使用频度建立多级转储以及归档体系。保障使用频度高的数据在日常备份作业范围内,合理归档使用频率非常低的历史数据。拿金融行业的票据、信贷类系统来说,我们可以将合理业务周期内的非结构化数据存在在一级缓存当中,保障业务复核阶段的数据读取;将业务周期外的非结构化数据转储到二级NAS平台上,保障近期内可能使用到的业务场景;将较长周期之前的数据定义为离线数据,归档到归档存储设备当中。备份仅仅涉及到归档之前的数据。这样既可以保障数据存取的性能,又能保障备份作业的长期稳定性,最终保障备份系统整体的安全稳定。

3 技术管理层面的解决方案
对问题的原因分析,我们知道导致备份无法进行的原因在于备份软件对于庞大文件系统目录的扫描时间过长。那么顺着这个思路,如果我们在备份的时候能避免去扫描整个文件系统目录,而是通过别的方式来完成备份,就可以解决这个问题。通过调查研究我们发现目有两种方法可以实现:
1)传统NAS的快照方式。对于传统的NAS存储来讲,快照是非常普遍的功能,通过NAS本身的快照复制,我们可以不用扫描文件系统没目录,仅仅基于某一个时刻点的快照,进行卷级别的复制实现全量备份;通过块儿级别的对比实现增量备份,因为NAS设备底层还是基于块儿设备实现的。当然这种技术需要对存储本身的快照功能有非常强的依赖性。
2)分布式NAS存储的日志记录方式。某些基于分布式技术实现的NAS存储可以对外提供日志操作的接口,也就是说对文件数据的增加和更新会记录到存储本身的底层日志当中,那么我们仅仅需要调用日志比对的接口就可以快速找到更新的目录和文件,仅仅需要扫描更新的部分做增量的复制来完成备份。
以上的两种技术方案需要我们在做备份规划之前的选型阶段对不同的备份软件及存储介质等进行深度调研和分析,尽可能科学合理组合实现以上解决方案。

收起
系统集成 · 2018-03-05
浏览3172
pysx0503pysx0503系统工程师第十区。散人
这么大的量。备份会很头痛。从发展来看。现在越来越多的技术都在尽量从底层去保证数据的安全。比如多副本。镜像等等,备份将来或许更多的会只为了存档等功能。我想考虑打包成整体文件。或者对整体磁盘进行镜像备份会快一代呢。否则海量的非结构文件。单单只是查询一遍文件...显示全部

这么大的量。备份会很头痛。从发展来看。现在越来越多的技术都在尽量从底层去保证数据的安全。比如多副本。镜像等等,
备份将来或许更多的会只为了存档等功能。我想考虑打包成整体文件。或者对整体磁盘进行镜像备份会快一代呢。否则海量的非结构文件。单单只是查询一遍文件目录就要消耗调巨大的资源和时间了

收起
系统集成 · 2018-03-05
浏览2212
hang0912hang0912技术经理苏州互盟信息存储技术限公司
在海量数据的存储中,根据数据访问频率的不同,“磁光混合存储”是一种更优化的存储方案。将常用的数据(热数据)保存在硬盘存储介质中,不常用的数据(冷数据)保存在光盘存储介质中,既可以提高数据的安全性,大大降低存储成本,而付出的存储成本仅仅是同等容量磁盘的10%~30%。磁光混合存...显示全部

在海量数据的存储中,根据数据访问频率的不同,“磁光混合存储”是一种更优化的存储方案。将常用的数据(热数据)保存在硬盘存储介质中,不常用的数据(冷数据)保存在光盘存储介质中,既可以提高数据的安全性,大大降低存储成本,而付出的存储成本仅仅是同等容量磁盘的10%~30%。
磁光混合存储系统可提供一整套“在线+近线+离线”的存储、归档解决方案。方案中采用先进的蓝光存储技术,利用自动化、智能化的蓝光光盘库和离线库,能够实现海量重要数据长期、稳定、安全的存储,大大提高数据的安全性。
根据用户对数据使用频率的不同,我们得出了更为合理的分级存储策略,即“在线——近线——离线”三级存储策略。
20%在线存储:磁盘阵列(实效性最高,价格昂贵,安全性较差,存放经常使用的数据)
50%近线存储:BD光盘库(实效性适中,价格适中,安全性较高,存放偶尔使用的数据)
30%离线存储:BD离线库(实效性最低,价格最低,安全性较高,存放很少使用的数据)

通过使用数据归档生命周期策略来创建不同平台(源域)的数据归档,并在整个生命周 期自动移动备份数据入光盘库。此外,通过利用预设的调阅恢复策略可实现自动恢复至指定数 据库或服务器上。

收起
硬件生产 · 2018-03-09
浏览2083

提问者

updater_aix
存储工程师CGN
擅长领域: 存储备份软件定义存储

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2018-03-05
  • 关注会员:4 人
  • 问题浏览:6132
  • 最近回答:2018-03-09
  • X社区推广