事半功倍，突破成本临界—— IBM FlashSystem A9K/A9K R

字数 2767阅读 1860评论 0赞 0

利用闪存技术构建现代化的数据中心，成本是绕不过去的坎，这就不简简单单只是技术的问题，多少需要点

“艺术”了，各种灿烂的观点横空出世，数据经济学应运而生，迅速成为存储界的一场新的革命；在闪存领域，关于存储效能的讨论已成为热点话题, 而对存储容量的理解也开始出现全新的标准。

曾几何时，客户购买存储系统的唯一需求就是容量，其它功能几乎都不在考虑范围之内，作为存储器，能把所有的东东都得装进去可是刚需；即使到了今天，很多项目应用中容量依然是最重要的需求指标，然而不少客户很快就发现貌似简单的容量概念的背后并不简单，直白点说，买到的容量一直就在缩水，说好的10TB 到上线时应用能实际用到的有时连三成都不到，这心里的落差可不是一星半点，做人不厚道成了那个时代的口头禅。

应该说存储容量的概念层次繁多，包括物理(裸)容量，可用容量，数据容量等等，不仔细琢磨的话有时确实可能犯低级错误--发现买来空间根本不够用; 传统存储容量的诸多概念给人的最终感觉就是内部开销巨大, 各种RAID保护、热备、系统内部占用、格式化、还有些连名头都没有的各种开销，总之一句话，最后到自己荷包里的银子已然耗尽，买来的存储空间还不够用。

在过去相对比较单纯的结构化数据的存储时代中，数据量基本很小，个中区别尚不显眼。直到有一天，越来越多的客户突然之间发现自己的数据中心已经膨胀到了PB级时，面对机房里成排的存储机柜和每年n位数的电费账单，很多C Level的大佬才开始愕然发问我为什么会有那么多数据？机房里的那些个大柜子里究竟装了些什么东东？

其实早在闪存问世之前，各种数据精简技术就已经在传统存储上有了应用。包括压缩，消重等，只是人们一直把它当成一种工具在使用，从来没有意识到它会成为基础架构层面的柱石。闪存时代的到来突显了空间成本和预算之间的巨大鸿沟，如何提升存储效率成为迫在眉睫的挑战，精明的技术派们看着这些大柜子同样开始琢磨，这里面都存了些什么？真的需要这么大的地方吗？

于是各种存储效能技术应运而生…

应该说，A9000在软件方面的一大亮点就是Data Efficiency, 数据效率的功能基本上涵盖了主流的业界技术，而且实现的更为精致巧妙，而且兼容了包括功能、性能等各方面的考量；在实现空间效率提升的同时，丝毫不损失性能，甚至还有所提升，这也是为什么数据效能在A9000里“Always On (始终开启)”的原因，“海到尽头天作岸, 山登绝顶我为峰”, 底气还是很足的。

A9000中的Data Efficiency功能主要包括三个方面：

模式识别, 匹配与移除——Pattern Matching & Removal
消重——Data Deduplication
压缩——Compression

先看看第一层模式识别，匹配与移除，这也是数据进入A9000之后首先完成的精减操作，模式识别的概念很直观，来自主机的写IO数据流进入系统后会自动拆分成8KB的数据块，然后计算每个数据块的哈希值并和系统中已有模式的哈希表对比，如果发现任何匹配，则保留存储相关的Pattern ID (2 Byte)就可以了，不用再存储8KB的实际数据，同时系统会标记提醒，对该数据块后续无须再消重及压缩。

想象一下，在磁盘存储的数据中各种模式是非常多的，最常见的莫过于全零和全1，这在很多元数据区域中非常常见；除此之外，还有众多类似的数据模式存在于磁盘系统之中，IBM研究院的专家们基于大数据分析的方式找到了很多类似的高重复度的模式，并存储在系统的模式库中，从而帮助大大节省数据存储空间。

完成模式识别后，进入数据精减的第二层--消重阶段，应用写入的数据完全可能重复多次，消重的目的在于将这些重复写入的数据块在系统中只存一份拷贝，所有其它同样内容的数据块只要通过指针指向同样的数据拷贝就可以了，无须消耗更多的存储空间；传统上消重主要用于备份系统，备份的数据重复度很高，基于消重的技术可以大幅度的提升空间效率，如今主存储中某些应用场景下也会面对高重复度的场景，比如虚拟桌面(VDI)虚拟服务器(VSI)等。

消重的具体算法同样也是基于哈希方式，任何经过模式移除之后的数据（未经模式识别处理）进入消重阶段会同样计算其哈希值并和系统保存的哈希库比较，发现任何重复数据只需要保留指针就可以了，如果发现全新的数据块则会创建新的哈希值并更新哈希库内容。

经过模式识别和消重后数据精减的最后一个阶段是压缩，A9000中的压缩采用即时硬件压缩技术，数据流通过专门硬件实时完成压缩并存储压缩后的数据实现空间效率的提升；A9000中压缩算法的亮点之一即是继承了已经非常成熟的RtC算法中的“可变长输入定长输出”以及“时序压缩”技术，能更加有效地板实时完成压缩操作，从而真正提升空间存储效率。

A9000的横向网格扩展架构也为各种数据效能算法提供了丰富的硬件资源。每一网格控制器单元中都配置有大量的CPU和Memory资源，同时每个网格控制器中带有专门的硬件压缩卡，软件架构方面所有的数据精减操作均在Cache以下完成，既数据先进入Cache缓存，然后再依次完成模式移除消重及压缩，由于IO在进入Cache后即告完成，后续的数据精简操作不再对系统性能构成影响，并行网格架构提供的大量Cache资源可以帮助大幅度降低延迟以提升性能。

经过所有这些数据精简之后，我们惊奇的发现原本只是10TB的容量空间能存储的应用数据几乎可达50TB甚至上百TB，这相对于原来直线下滑的可用容量损耗无疑是巨大的革命性创举，沿用传统的原始容量或可用容量的概念已经无法描述当今闪存系统的储存能力，于是，“有效容量”的概念将大行其道。

在被传统缩水模式的可用容量概念折磨了十几年之后我们第一次意识到过去的存储模式是那么的低效、不经济，就如同我们传统的经济模式一样完全不可持续；有效容量概念的提出无疑是闪存技术带给存储业界的一场革命，这场革命必将传统信息技术架构的疆界拓展到全新的领域；超越人类历史总和的海量数据每天都在刷新新的标杆，如果面对新的数据时代还想持续发展，我们就必须摈弃就有工具的惯性思维阵势，快速向新工具的思维模式转型，实现业务的跨越式快速发展。

事实不正是这样吗？其实我们关心的根本不是什么物理容量或原始容量，我们关心的不就是和数据息息相关的“有效”容量吗？数据效能的新技术将传统的容量空间下降缩水曲线神奇的变成了上升曲线；我们能用更少的物理资源，更低的能耗，更少的机房空间完成更多的业务处理；旧有的低效存储模式已经无法支撑未来数据海洋的全新经济时代，有效容量的革命性概念必将开启数据经济时代的全新消费模式。

突破临界点，一切正在发生……

著作权归作者所有

如果觉得我的文章对您有用，请点赞。您的支持将鼓励我继续创作！

添加新评论0 条评论

Ctrl+Enter 发表

匿名评论

事半功倍，突破成本临界—— IBM FlashSystem A9K/A9K R

添加新评论0 条评论

作者其他文章