互联网服务技术压缩成本

小议数据压缩技术——实时数据压缩与重复数据删除

如何有效控制数据存放成本,如何显著提高数据传输效率,如何实现数据的高效管理达到应用需求与管理成本的最佳平衡,一直是海量数据中心所面临的课题。数据压缩技术作为节省数据存放空间,减少数据传输带宽的有效途径,自诞生以来,一直倍受IT管理人员及存储技术人员的关注,然而由于数据压缩技术在数据访问性能、数据管理复杂度等方面的“负作用”,使得人们对其又爱又恨,甚至是敬而远之。本文结合笔者多年来在数据管理方面的经验,从行业数据管理现状、高效数据压缩需求、常用数据压缩技术弊端以及时下较流行的实时数据压缩技术等方面进行阐述,以期能够在数据压缩管理方面抛砖引玉。

行业数据管理现状

对于海量数据中心而言,如何为成几何级数增长的数据提供高效的管理,始终是IT管理人员和存储技术人员的心头之痛。一方面,随着业务的增长,数据量不断膨胀,存储设备的预算一加再加,相应的电力成本节节攀升,机房空间告急,扩建需求日益紧迫;另一方面,存储设备有效使用率极低,大量的冗余数据、重复数据、历史数据的存在,使得存储设备的投入备受争议,却又无可奈何。

如何最大限度利用好存储设备,降低数据存放成本,降耗节能,无疑已经成为改善数据中心运行状况,提升企业竞争力的关键课题。高效的数据压缩需求也因此应运而生。

高效数据压缩需求

提到数据压缩技术,它的历史由来已久。如果把“B4”代表“Before”这种缩略语看作最简单的数据压缩的话,那么早在一千年前,中国学者就已经开始用“班马”指代班固和司马迁见诸文史了。

而真正使数据压缩具备理论依据,并不断发展的则是信息论之父 C. E. Shannon。1948年,他第一次用数学语言阐明了概率与信息冗余度的关系。从那以后,一个又一个编码压缩方法不断被提出,为数据管理者带来了一个又一个惊喜,但逐渐人们也发现压缩在减少数据量的同时,也为数据使用带来了诸多影响,甚至是不便。

作为一名数据管理者,当提到数据压缩技术时,笔者认为最先需要考虑的主要包括如下几方面:

1)确保数据一致性
数据一致性是指数据压缩技术不会导致数据出现误读,能够保证数据的准确性。如果压缩前后数据无法保证一致,再好的压缩技术也毫无意义了。
2)数据访问效率影响小
由于数据压缩往往需要对原始数据进行抽象变形,而在后续数据使用的时候又需要进行反动作处理还原,因此数据压缩给技术人员的第一印象就是数据访问效率的下降。这也成为其在数据一致性之后的首要关注点。
3)工具易用性好
如果一种数据压缩技术,需要繁琐的事前处理,后续使用的时候也不断需要人为干预,那么这肯定不能称之为一种高效的数据压缩技术,其受到技术人员、使用者直接抵制也是可想而知的事情了。
4)数据压缩率
既然是数据压缩技术,数据的压缩率自然是评价其好坏的最直观的标准,在各项指标均相差无几的情况下,压缩率的比较将成为一款数据压缩产品好坏的硬指标。

常用数据压缩技术弊端

目前,重复数据删除技术作为一种数据压缩技术在业内受到普遍关注。有数据显示,至少有30%的IT部门在部分数据上使用了重复数据删除技术。各大存储厂商也在不断推进产品换代升级,专门为其产品在简化重复数据删除无破坏性部署方面进行优化。

重复数据删除技术的工作方式是在某个时间周期内查找识别不同文件中不同位置的重复可变大小数据块,通过将重复数据块使用指示符进行取代,达到数据压缩的目的。实现重复数据删除的方法多种多样,如,基于块级的重复数据删除方法,基于字节级的重复数据删除方法等等。

目前该技术对于压缩备份空间,提高备份效率效果明显,某存储厂商曾对其重复数据删除产品实施效果与传统存储产品进行比对,用户普遍反映采用重复数据删除后备份速度方面提高了125%,备份失败的次数降低了87%。

但遗憾的是,凡事总有两面性,重复数据删除技术在给存储管理人员带来福音的同时,也提醒着人们它的不足。

1)数据可靠性问题
尽管现在关于重复数据删除技术的宣传铺天盖地,但这并不意味着这项技术适合所有用户应用。对于数据可靠性要求较高的用户,类似实时数据压缩技术这种不仅可以删除冗余备份数据而且可以删除冗余的主存储的数据压缩技术,吸引力或许更大。
2)数据压缩率问题
重复数据删除技术在数据压缩方面的表现很大程度上取决于数据的重复程度,这也就是为什么其对于备份数据压缩效果好的主要原因。而对于一般文件数据,图像数据,由于其内在都是唯一的,因此重复数据压缩对这些数据的压缩率与采用诸如Lempel-Ziv等压缩算法进行的实时数据压缩相比,存在一定差距。
3)管理成本问题
对于存在数据频繁更新的企业而言,考虑到重复数据删除的利弊,为了即不影响数据访问性能又能最大限度发挥重复数据删除的优势,对数据管理就提出了极高的要求,要求数据管理者对被管理的数据进行细致识别判断,加以区分得应用重复数据删除,而这一部分工作又多为手工进行,因此对数据的识别成本往往超出了从重复数据删除技术中得到的好处。

实时数据压缩技术

实时数据压缩技术与之前提到的数据重复删除技术相比,具有数据压缩可靠性高,压缩对象广泛,管理成本低等优势。

实时压缩技术利用位于NAS设备前端的一个应用,实时压缩进入及读出的数据,几乎可以压缩所有的数据库,信息系统,图像,用户数据和OS图像。由于其对主存储数据也进行压缩,可靠性较重复数据删除技术也有明显改善。同时由于没有压缩对象的要求,也就没有了数据识别过程,降低了数据管理成本。而在数据压缩的性能影响方面,实时数据压缩技术通过采用基于行业标准压缩算法的压缩引擎,如Random Access Compression Engine (RACE),也可将数据压缩带来的性能影响降到最低。但我们应该认识到,实时数据压缩技术在对特定类型对象的数据压缩率上,与重复数据删除技术相比还是存在一定差距的。

综上,实时数据压缩技术与重复数据删除技术,两者各有利弊,两者互为补充,在利用实施数据压缩技术减少数据负载的同时,利用重复数据删除技术降低数据备份成本,提高数据备份效率。最终通过合理利用两项技术达到企业数据管理的成本与效益完美平衡。

本文作者:中国工商银行数据中心  王景熠
节选《存储架构师》杂志第四期
参与2

1同行回答

行成行成it技术咨询顾问厂商
学习了,但是基于算法的数据压缩可能带来的性能影响,相较于重复数据删除带来的性能影响还是大太多。这方面还是如结论US噢所,还是要合理利用两项技术达到平衡显示全部

学习了,但是基于算法的数据压缩可能带来的性能影响,相较于重复数据删除带来的性能影响还是大太多。这方面还是如结论US噢所,还是要合理利用两项技术达到平衡

收起
IT咨询服务 · 2020-11-14
浏览738

提问者

hotmail
软件开发工程师hotmail
擅长领域: 数据库服务器云计算

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2011-09-16
  • 关注会员:1 人
  • 问题浏览:2736
  • 最近回答:2020-11-14
  • X社区推广