【核心议题】作为备份系统中的一大核心,重复数据删除是每个备份负责人必须重视的技术,你的选择是什么?

重复数据删除技术是备份系统中的一大核心技术,市场上主流的重复数据删除技术,按消重方向可以分为:源端消重和目标端消重;按消重手段可以分为:基于CPU和内存、基于类HASH链表两种主流手段。近些年重复数据删除技术不断演进,现在最前沿的重复数据删除技术已经能基于SAN进行源端重...显示全部

重复数据删除技术是备份系统中的一大核心技术,市场上主流的重复数据删除技术,按消重方向可以分为:源端消重和目标端消重;按消重手段可以分为:基于CPU和内存、基于类HASH链表两种主流手段。

近些年重复数据删除技术不断演进,现在最前沿的重复数据删除技术已经能基于SAN进行源端重复数据删除。针对目前技术的发展,你最青睐于哪种技术的消重功能?为什么选择了这种方式呢?

收起
参与46

查看其它 7 个回答baizhaoxian的回答

baizhaoxianbaizhaoxian联盟成员容灾备份管理工程师

重复数据删除(De-duplication),简称“去重”,是目前主流且非常热门的存储技术,通过对比校验技术删除存储设备上重复的数据,只保留其中一份,从而消除冗余数据,优化存储设备的物理空间,从而满足日益增长的数据存储需求。
固定分块重复数据删除的主要优势在于占用较少的CPU资源。固定分块系统不需要CPU开销来检查数据并判断数据块的边界。它们只要将数据分解成数据块,就像其他文件系统那样。实际上,一些主存储重复数据删除,比如NetApp的产品,使用的正是底层文件系统的块。
 较低的开销同时还意味着较低的延迟性。数据块边界的计算过程需要一些时间。虽然厂商们已经在尽量减少这个时间并声称这种时间开销是可以忽略的,但是这个过程和时间确实存在,对于主存储重复数据删除系统来说可能是个问题。
 不过,对于备份应用程序来说,这问题要简单许多。备份应用程序只是将数据流发送给某处的一个磁带驱动器。由于它们只是向少数大型文件执行大型顺序写入请求,因此每个请求发生数毫秒的延迟对于它们来说还不会有什么大的影响。对于传统备份应用程序,比如NetBackup或Networker来说,吞吐量才是最重要的,延迟性的重要性低一些。
 主存储应用程序,即使是简单的应用程序,比如托管用户的主目录,对延迟性也非常敏感。此外,主存储应用环境不是像备份应用程序那样将数据写入到少数大型文件,而是有数百万个各种大小的文件。由于每个文件都从一个新的数据块开始,因此数据插入或其他有可能带来块重整的修改只影响一个文件的数据。每个新文件都会重新调整流程。
 基于软件的重复数据删除软件--尤其是那些在源服务器端进行重复数据删除操作的应用程序,比如Avamar、PureDisk或Asigra的Cloud Backup--也会使用文件开头和结尾来判断它们的块边界。这些应用程序首先判断哪些文件已经发生修改,比如传统的增量型备份,然后开始在每个文件上进行分块操作。
 如果备份目标端的重复数据删除引擎知道磁带的格式或将Tarball这样的文件(也就是你的备份应用程序写入数据的文件)整合在一起,那么使用文件边界可以优化备份目标端的固定块分块流程。重复数据删除引擎可以在Tarball内判断每个文件的开头和结尾,并根据这些边界对数据块进行重新调整。内容感知功能同时也可以让备份设备看到索引标志,并为备份应用程序插入到Tarball的数据编写目录以防止它们遭到分块。
 不过,固定块系统可能在某些数据上会水土不服。我知道一位Data Domain用户使用Exchange备份来测试赛门铁克的PureDisk重复数据删除。他们当时在Data Domain上根据给定容量的存储保存40个Exchange服务器备份,但是他们无法在同样的存储容量下保存4个被PureDisk执行重复数据删除的Exchange备份数据。Exchange数据是由小量大型数据库文件组成的,而这些文件会在备份之间发生内部改变。对于PureDisk的重复数据删除引擎来说,这是最糟糕的情况。现在,如果你使用固定块重复数据删除引擎,而数据块的大小比数据库页面还小,那么情况也很糟糕。

互联网服务 · 2017-06-28
浏览4860

回答者

baizhaoxian
容灾备份管理工程师
擅长领域: 存储备份软件定义存储

baizhaoxian 最近回答过的问题

回答状态

  • 发布时间:2017-06-28
  • 关注会员:9 人
  • 回答浏览:4860
  • X社区推广