【核心议题】作为备份系统中的一大核心,重复数据删除是每个备份负责人必须重视的技术,你的选择是什么?

重复数据删除技术是备份系统中的一大核心技术,市场上主流的重复数据删除技术,按消重方向可以分为:源端消重和目标端消重;按消重手段可以分为:基于CPU和内存、基于类HASH链表两种主流手段。近些年重复数据删除技术不断演进,现在最前沿的重复数据删除技术已经能基于SAN进行源端重...显示全部

重复数据删除技术是备份系统中的一大核心技术,市场上主流的重复数据删除技术,按消重方向可以分为:源端消重和目标端消重;按消重手段可以分为:基于CPU和内存、基于类HASH链表两种主流手段。

近些年重复数据删除技术不断演进,现在最前沿的重复数据删除技术已经能基于SAN进行源端重复数据删除。针对目前技术的发展,你最青睐于哪种技术的消重功能?为什么选择了这种方式呢?

收起
参与46

查看其它 7 个回答Jerry Miku的回答

Jerry MikuJerry Miku其它The Global 500

经过近些年的发展,重复数据删除技术已经很成熟了,借今天的机会和各位交流下重复数据删除技术。

我们从下面几点理解重复数据删除的一些特点展开:
1,在线?离线?

在线消重,顾名思义是在备份时就进行消重,落盘到备份存储介质的数据都是经过消重处理的数据。离线消重,是指数据备份到备份存储后再进行消重。
如果在线消重要保持一个高效性能,这就消耗备份系统以及宿主机一部分资源。在线消重技术发展初期,硬件与软件的契合度并不高,导致在线消重备份时需要消耗相当一部分宿主机资源、拉低备份性能。同时重复数据删除技术雏形期,主要以类HASH链表式的消重手段为主,链表式消重技术对主机计算资源与后端存储、备份介质都有一定要求,且HASH链表越长消重越慢。因此,重复数据删除技术在初期并不被人看好。

2,源端消重?目标端消重?

源端消重,是指备份软件在客户端上获取到备份数据时就开始消重过程,在备份系统内传输的数据均是消重后的数据。源端消重技术由于需要在备份时进行消重,因而需要占用宿主机一部分资源来执行消重。目标端消重,是指备份软件已经备份到备份存储,在数据缓存到备份存储里或已存储到备份存储上再进行消重过程。目标端消重技术已在重复数据删除的发展历程上辉煌过一段时间,因为此技术不会消耗源端资源同时也不会降低备份性能,目标端消重性能完全依赖备份存储自身资源和效率。

3,基于类HASH链表式消重?基于CPU-内存式消重?

类HASH链表式消重是重复数据删除技术发展史上的一大核心技术,即使在今天也占有一定市场。HASH链表式消重,实现方式是将数据切片,然后计算出每块数据片的HASH值之类能唯一标记该数据片的索引值,若在消重的唯一索引链表上命中,则消重。若没有命中则更新索引链表,将数据片经过处理后存储在备份介质上。熟悉了链表式消重的过程,可以很清楚的知道这种技术的弊端就是当索引表非常长后,消重效率会越来越低。
基于CPU-内存式消重技术,核心代表就是DataDomain。在发展初期,CPU的性能和内存的大小处处受限,此这种技术的发展左右碰壁。但经过摩尔定律的驱使,现在的CPU和内存已经取得卓越的性能,基于CPU-内存式消重技术取得了相当不错的成绩。与类HASH链表式消重不同的是,该技术在消重前会将唯一索引链表直接加载进内存,消重时会直接将备份数据加载到内存,切片,计算每个数据片索引值,然后完成索引值对比、更新,最后处理数据、存储。几乎整个重复数据删除过程都在CPU和内存中完成,现在CPU和内存的处理效率远比数据在磁盘上流动的效率高。经过长时间的发展,基于CPU-内存的消重算法已经臻于完善,对CPU和内存的利用效率完全满足商业标准。现在此种技术已经升级,不仅仅可以基于LAN进行消重备份,而且能支持基于SAN的消重备份了。不得不说,基于CPU-内存式消重技术早已不是当年“吴下阿蒙”。

4,定长消重?可变长消重?

影响重复数据删除效率的核心因素之一便是消重切片过程中的切片精度。显而易见,若是切片精度越高,那么数据片重复命中率越高,消重效率越好。若对于不同长度的数据片能够动态调整切片精度,适应每份备份数据的情况,那么消重效率更加高效。现在定长消重的精度范围主流水平约在6K或8K(min)、16K(max)左右,可变长消重的精度范围现已突破到4K(min)、16K(max)。

个人对重复数据删除技术的看法

个人非常支持重复数据删除技术。虽然存储介质的价格已经非常廉价,但若能在有限的存储介质上实现更高的存储效率,何乐而不为呢?其次重复数据删除技术最大的一个收益点是能降低备份大数据量时对各资源的消耗和依赖。巨量数据的备份不论对生产系统还是备份系统都是一个不小的冲击,况且随着系统的发展,备份系统越来越大,备份的数据越来越多,备份的计划与安排越来越受制于备份数据量的规模。重复数据删除技术提供了一个物美价廉的解决方案,更提高了整个系统的效率。
也许在很多不太关注重复数据删除技术的工程师心中,重复数据还是那个效率低、成本高的空壳子,但实际上重复数据删除技术早已发展到了一个新的高度。借个人实施经历中一个真实的案例,看看现如今的重复数据删除技术的性能:一台Windows虚拟机存储着490 GB(有效数据)非结构化文件(文件主要为word/Excel/PPT/PDF等),日变化量大约15 GB/DAY,虚拟机的配置为2 * 2.8 GHz CPU,8 GB内存,千兆网卡。部署了一套源端、在线、基于CPU-内存的重复数据删除备份(重复数据删除设备并非物理机而是虚拟机),所有配置均采用默认配置、不作定制优化。首次备份耗时35 min,消重效率87%,消重时CPU消耗上涨5%,内存占用小于200MB,网络负载约3 MB/S左右。第二次备份耗时19min,消重效率98%,CPU、内存消耗与首次备份差不多,但网络负载明显下降,偶尔占用1~2MB/S。

之前也分享过一部分重复数据删除备份的经验,请参考http://www.aixchina.net/Question/225177

IT其它 · 2017-06-28
浏览5070

回答者

Jerry Miku
其它The Global 500
擅长领域: 存储备份灾备

Jerry Miku 最近回答过的问题

回答状态

  • 发布时间:2017-06-28
  • 关注会员:9 人
  • 回答浏览:5070
  • X社区推广