jxnxsdengyu
作者jxnxsdengyu课题专家组·2018-12-03 14:11
系统工程师·江西农信

面向多云、高吞吐、低延时和数据整合的闪存阵列对软硬件特质的需求

字数 5868阅读 7388评论 9赞 15

我们正处于一个技术敏捷更替的时代,随着云计算、互联网、人工智能和大数据等技术的飞速发展和成熟,我们可以预见,企业的绝大部分业务,将会越来越依赖于他们创造数据化增强产品、服务和体验的能力,数据已然演变为这个世界上最为重要的资源,而数据存放的介质也在不断的升级优化,以满足数据对存储各式各样的需求。其中闪存盘作为近年来新兴的,不断被认可的数据储存介质,以小体积、大容量的盘阵形式封装,以多功能的软件定义方式加持,正以高昂的态势走进金融、政企、互联网、能源、制造等企业,满足其业务系统对越来越高的IO吞吐和越来越严苛的IO时延的要求,同时满足企业数据多云化和对业务连续性的高标准和高要求。然而,这样一种面向多云、高业务连续性,并且提供极致的IO吞吐、IOPS和IO响应时间的闪存阵列,究竟需要满足哪些软硬件特质的需求,是企业IT规划师和设备采购者需要思考和抉择的关键内容。

一、闪存硬件特质的需求

1、闪存模块的接口

闪存盘位插槽的接口和闪存模块盘的接口是匹配的,目前主流接口有SATA、SAS和NVME三种接口,由于SATA和SAS接口是针对HDD盘设计的,但面对闪存速度上百倍的提升,接口的带宽就成为了I/O的最大瓶颈,随后基于PCIe接口的NVMe标准协议的SSD也逐渐开始得到广泛应用,来应对更高性能的要求,NVMe通过PCIe接口可大幅度减少延迟,并且增加IO吞吐。例如IBM的最新全闪阵列FS9100,相较于其他全闪,其最大的特色在于闪存模块完全采用NVME接口,相较于SATA接口的SSD,经过测试,吞吐量方面,NVMe接口的SSD在顺序读吞吐量上提升近3.8倍,顺序写吞吐量上提升近2.5倍,并行IOPS方面,持续随机读提升近4.3倍,持续随机写提升近1.5倍。

因此我们有理由相信,基于NVMe接口的闪存盘(模块)和闪存阵列是极致提升闪存性能的第一大硬件特质。

2、闪存模块的寿命

闪存盘(模块)的寿命通常是被大家所诟病的最多的,相较于机械硬盘,闪存盘的特性以及写入和改写的机制导致了闪存盘的寿命较短,尤其是数据快写满时,寿命也急剧下降,同时也导致写入性能衰减。其主要原因无外乎三个方面,一是闪存颗粒可擦除的次数是有一定的限度的,不能无限擦除再写入;二是闪存块必须先擦除才能再写入的特性,在执行这些操作时,数据都会被移动超过1次。这些重复的操作不单会增加写入的数据量(写放大),还会减少闪存的寿命,更吃光闪存的可用带宽而间接影响随机写入性能;三是各闪存盘的被写入的次数和频度不一,容易导致热点数据集中的闪存盘寿命较低,冷数据的闪存盘寿命较长。

因此闪存盘内部的主控和闪存阵列的主控需要有一个合理、高效的方式去平衡所有写的IO,无论是闪存盘内部的闪存芯片、还是闪存盘,都具备基本一致寿命且尽量减少写放大的影响。目前,大部分闪存盘供应商对所有闪存块采用同样的均衡磨损技术,然而较差的闪存块磨损很快,快速占用超供给部分的闪存空间,导致闪存盘寿命依旧不长。为了保证闪存的磨损更加均匀,需要进一步的方案来解决,IBM的FS9100全闪也不例外,为了从根源上提高闪存模块的寿命,其主要采用了以下三个技术:

一是健康装箱技术,通过该技术持续监控每一个闪存块的健康状况,使用多个精准的参数来检测闪存块的健康状况,热点数据放入健康状态较好的闪存块,该技术可大幅提升闪存芯片的寿命;

二是热点隔离技术,将具有相近写热度的数据放在一起,特定PAGE就会分散到不同的BLOCK上去,如果检测到一个相对较大的具有相同地址的过期页面,这些页面将被隔离到一组单独的闪存块中,以显著减少写放大效应。

三是闪存端数据重删和压缩技术,重删方面,写入的数据经过存储端的对比后,重复数据不再写入闪存块,而是在主控的缓存中作相应标记;压缩方面,写入的数据直接通过算法压缩,再写入闪存块。如此,通过减少直接的写入IO量,进一步间接减少写放大,提高闪存盘的寿命。

因此,在实际负载中能够显著提升闪存盘和盘内闪存芯片寿命的第二大硬件特质,则是不对称的均匀磨损技术。

3、闪存数据的保护

闪存盘(模块)中数据的可靠性也大家关注的重点内容之一,重要原因也是闪存芯片、盘的寿命的问题,即使通过采用各种减少写放大、磨损均匀、热点隔离等办法去提升闪存盘的寿命,但闪存块、芯片、盘的故障后,依旧需要具备高质量的数据保护机制,来防止数据丢失。相较于传统机械磁盘固定的RAID保护,FS9100闪存阵列的数据保护进一步向内部拓展和延伸,可分为以下三个方面:

一是闪存块的数据保护方面。FS9100全闪阵列在闪存块的生命周期中,可动态读取电平的变化,以确保闪存单元的寿命尽可能长;并且采用了预测技术,来提前调整内部闪存芯片设置,最小化不可纠正错误的可能性,同时结合闪存块的老化,为每一闪存块确定了最佳电压水平;随着使用时间的增长,FS9100可监测每个区块的健康状况,设定理想的电压等级,以减少错误。

二是闪存芯片的数据保护方面。闪存芯片的失效原因有很多种,但闪存芯片却不能像盘失效那样,通过更换故障盘来防止数据丢失,而简单的通过多块芯片的传统RAID保护,也无法防止单芯片故障,导致整个芯片RAID组处于降级的状态,因为芯片是无法进行更换的,单芯片故障需要更换整块闪存盘。为了解决该问题,FS9100采用了更为复杂的可变RAID保护,当RAID组中的芯片故障后,直接将其剔除,并在RAID组的剩余成员中,重整数据,恢复RAID保护,整个芯片RAID组依旧持续提供高可靠性和同样的性能,同时降低了闪存盘的维护成本,也提升了单闪存盘的寿命。

三是闪存盘的数据保护方面。FS9100全闪与传统机械磁盘间的保护类似,采用了传统固定的RAID+热备盘的保护机制,当闪存盘RAID组中的某一块盘故障后,RAID保护的存在使得数据可持续提供读写,热备盘的存在,使得重建RAID非常迅速,将故障盘的数据通过剩余盘的检验位恢复至热备盘中。

因此,良好的闪存数据保护设计机制是十分有必要的,将使得闪存盘的品质得到极大的提升,这是闪存硬件所需的第三大硬件特质。

4、性能无损硬件加速压缩

闪存阵列每T容量的拥有成本相较于传统机械磁盘翻了数倍甚至数十倍,这在闪存阵列尚未成熟之前,是许多中小企业难以承受的土豪设备,然而随着闪存技术的成熟和闪存颗粒的采购成本不断降低,闪存阵列的整体拥有成本也不断下降,而运用在闪存中的一些新技术也大大提高了闪存的整体性价比,这其中之一便是硬件加速压缩功能。压缩功能运用,能够使得闪存实际可用容量有一个较为明显的提升,并且降低了实际每T容量的拥有成本,但相较于传统闪存的压缩,无论是压缩和解压缩过程,均消耗了一定的闪存控制器的CPU计算能力,牺牲了一定的闪存性能。因此,为有效解决该问题,FS9100将压缩算法从闪存主控中剥离,用专有硬件来加速压缩和解压缩,且该专有硬件进一步下移到了闪存盘上,满足了以下三个方面的硬件特质:

一是完全基于专门的硬件,不需要控制器的处理器介入。支持在盘上进行压缩,而非闪存模块上的压缩,盘内压缩不需要控制器CPU进行压缩,释放控制器的CPU资源,可以支持更高的IOPS。

二是在不影响性能的前提下,压缩可提升存储经济性。压缩是数据进入闪存模块路径的第一步,解压缩是数据取出闪存模块的最后一步,这将极大减少写入闪存介质的数据量,同时大幅提升了闪盘的寿命。除了空间管理之外,压缩和解压缩在闪存模块之上是完全透明的。

三是数据保护 (ECC) 是在压缩后的数据上实现。数据可靠性得了充足的保证,同时满足数据压缩的需求。

因此,基于性能无损的硬件加速压缩是保证闪存兼具性能和性价比的第四大硬件特质。

二、闪存软件特质的需求

1、存储虚拟化

越来越多的企业开始考虑将原有存储、SAN网络的历史遗留问题加以解决,其中之一便是传统烟冲式的应用架构带来的存储架构混乱,多套SAN网络、多套存储孤岛,以致难以适应存储资源池化转型,无法为计算节点云化打好存储端的坚实基础。而存储虚拟化便是存储整合、SAN网络级联打通的关键一环,通过存储虚拟化,将企业目前存在的多套、异构的存储统一,作为一个存储池或多个存储池,像上层主机提供不同性能的IO服务,同时通过虚拟化,将原有杂乱的SAN网络级联整合,清晰化整个存储SAN网络架构。

目前有两种方式去实现存储虚拟化,一种是存储虚拟化网关实现,另一种的自带存储虚拟化全功能的闪存实现。前者将虚拟化功能作为独立设备,后者将虚拟化功能和闪存存储紧密结合。FS9100在原有存储的基础之上,既提供了极致的IO读写性能,又提供了全功能的虚拟化整合能力。因此,能够通过闪存去实现企业存储整合、云化转型,并且能够进一步提升关键系统的IO读写性能,是闪存所需具备的软件特质之一。

2、闪存高可用的实现

闪存的高可用是防范重大、不可抗因素的灾难性事故,所必须要具备的特质。上了闪存,但却无法提供有效的容灾或者双活解决方案不是一个合格的闪存产品,而必须要借助操作系统或者数据库上层的解决方案去实现数据的容灾和双活,也是一个考虑不周的闪存产品。因此,FS9100全闪阵列的另一大软件特质表现为以下两个方面:

一是闪存自身高可用的实现。本地高可用方面,能够借助闪存产品的虚拟化功能去实现闪存与其他存储间的数据镜像功能,解决本地闪存单点风险问题,闪存整体性故障时,本地的另一个存储可以顺利接管主机的IO读写需求;同城容灾高可用方面,能够提供存储级数据容灾的功能,当本地发生致命的故障时,能够通过同城端的存储接管业务;本地或同城双活高可用方面,越来越多的存储本身能够提供双活方案,闪存也不当示弱,既提供极致性能,又能实现存储级双活,且能通过极致性能削弱传统存储双活带来的性能影响,为双活真正的落地带来福音。

二是闪存通过自身的高可用,辅助其他异构、不能实现高可用的存储完成高可用目标。一些中、低端存储无法实现高可用,或者只能实现同构存储间的高可用,通过闪存的虚拟化整合能力,使得中、低端存储能够实现统一的本地和同城高可用,甚至双活,并且不需要同构的存储设备和存储间复制技术作为必要条件,这样可大大提升企业高可用架构灵活性,且保护原有投资。

因此,闪存兼具考虑周全的本地、同城容灾和双活高可用保护方案,或者辅助其他存储实现容灾高可用,是闪存所需具备的软件特质之二。

3、多私有云间数据迁移

随着企业各类资源资源池化、云化,多云架构似乎已成为必然和趋势,其中一个很重要的原因就是异构,异构的计算资源池协同底层的存储资源池形成了一套又一套云,那么异构多云间的数据共享和数据迁移又该如何解决,云内存储如何替换,又该如何无缝切换等,成为了多云架构必然遇到的问题。按照传统的运维思路,数据迁移涉及操作系统及其上层数据库的迁移,是需要进行充分的测试、安排合理的时间窗口、团队按照完善的实施方案进行的。而多云间的数据迁移或者共享涉及更大的数据量、更多套的业务系统和更为复杂的软硬件环境,我们能否在多云架构的底层存储中就实现这一复杂运维,甚至无停机、无感知、无缝地完成存储数据迁移和存储替换工作呢?答案是肯定的,搭载了存储虚拟化和数据迁移功能的FS9100闪存阵列,可以将两个不同的SAN存储云内数据进行互相迁移,并无缝完成迁移完后的切换。但前提条件是需要将多云架构的多套存储统一接入至带存储虚拟化的闪存,由其作为一个多云的存储网关,以此来实现多云间数据迁移,云内存储替换和多云间数据共享,更加便捷、灵活、简单化存储的各项运维工作。因此,闪存兼具强大的数据整合和迁移功能是闪存所需具备的软件特质之三。

4、私有云与公有云间数据快速复用

当前企业尤其是互联网类企业或者说互联网类业务系统,都存在一个共同的需求特性,就是需要快速、弹性的供给大量的资源,以满足爆炸式的互联网业务发展需求,尤其在面对高用户并发,极低响应延迟时,迫切需要横向扩展资源。当企业现有资源或者年初采购的资源不足以面对迫切需求时,往往需要考虑将这类互联网业务拓展到公有云端,以解燃眉之急。然而,拓展资源去往公有云面临的一个最大问题是:企业现有私有云数据如何被公有云快速复用,减少资源拓展的时间花费,传统的做法是,数据的备份与传输,但面对大量的数据与大量需共享数据的资源时,这种做法实在是难以有效的开展,无法快速解决现实问题。而FS9100能够实现与公有云存储对接,通过运用快照的方式将数据快照Tier到公有云上,不仅仅实现了数据的快速复用,还从另一方面实现了数据的多层级保护。通过该方式,使得公有云端计算资源能够快速获得生产私有云端的存储数据,加速了资源横向扩展速度,增强了企业互联网类业务的横向扩展能力。因此,具备与公有云对接能力,能有效通过快照将数据快速复用至公有云的闪存阵列是所需具备的软件特质之四。

5、智能高效的运维辅助

当前摆在企业存储运维人员面前的另一大难题是,无法清晰、准确、深入地掌控存储的真实状况,尤其是性能状况,需要借助存储厂商单独提供的专用工具软件或者通过操作系统端的监控去完整掌控存储性能。其原因无外乎存储厂商在存储资源和性能管理的UI界面做得不够好,不够深入,不够完整,不够智能。因此优秀的闪存的软件加持的另一大特质的AI加持,FS9100利用先进的AI技术,匹配当前人工智能的发展趋势,为存储的深入资源和性能分析,提供一个完整高效的运维辅助功能,主要包含以下两个方面:

一是通过自带AI加持的存储智能分析软件,对存储资源和性能实现全方位监控管理。深入至每个控制节点、每个资源池、每个存储卷和每个主机,对其性能和容量趋势进行深入分析,帮助用户了解存储的各项状况。

二是利用AI能力实现数据智能分层,优化数据中心存储空间分布,提高存储性能,降低数据迁移带来的影响。用户无需过多了解存储的底层实现,和手动进行存储数据迁移,以满足主机对存储的性能需求。闪存通过结合自身内部存储、整合外部低、中、高端存储,统一整合为一个大的存储池,并自动的进行存储质量分层,将热点数据放入性能较优的后端闪存存储,温数据放入性能中等的后端存储池,冷数据放入性能一般的后端存储池。

因此,实现智能高效的AI运维辅助是闪存所需具备的软件特质之五。

综上两大方面,我们有更进一步的理由相信,兼具性能、稳定性、可靠性、经济性、灵活性、快速与智能为一体的闪存阵列是我们企业在面对数据资源时最迫切的需求,因为如今只有一种成功的企业——数据驱动型多云企业,满足了以上要求的存储,则能更好的推进企业迈向成功。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

15

添加新评论9 条评论

michael1983michael1983联盟成员技术总监某证券
2019-02-11 15:30
闪存慢慢在成为主流
wuwenpinwuwenpin软件开发工程师南京
2018-12-24 19:05
感谢分享!
waterlee777waterlee777硬件开发工程师CES
2018-12-24 17:51
最近几年时间,存储介质的发展非常迅速,容量和效率都得到了大幅度提升,其中,最受瞩目的就是全闪存这一存储介质了。目前华为的全闪存产品已经获得了全球范围内各个国家的信赖,荷兰运营商、比亚迪汽车集团等龙头企业都算是华为技术的受益者,依靠着尖端技术,将国产的金字招牌打向世界!
田洪波田洪波系统运维工程师山东九羊集团有限公司
2018-12-18 10:21
闪存技术,最主要的优势应该就是快,IO吞吐、IOPS和IO响应时间都比传统存储要快的多,但是同样也存在诸多的缺陷,而且费用很高昂,作为新技术,新产品,稳定性到底能不能达到要求,我觉得还需要观望。但是对存储的高速要求是主趋势,闪存技术也会越来越成熟稳定,成本也会降低,最终会成为主流。
断线的风筝断线的风筝售后技术支持南京联成科技发展有限公司
2018-12-18 09:29
闪存成本的不断降低,使得闪存不断由高端逐渐的大众化,同时接口也成为性能的瓶颈,取存储的控制器,、服务器的阵列卡等等
leeruileerui系统运维工程师江苏鸿信系统集成有限公司
2018-12-17 18:43
闪存,第一感觉就是速度,快。虽有缺陷,但在这高速发展的现在,速度才是王者,企业要的是兼具性能、稳定性、可靠性、经济性、灵活性、快速与智能为一体的闪存阵列。
Senko leeSenko lee课题专家组系统架构师江西裕民银行
2018-12-14 10:45
闪存目前趋势已经逐步在应用了,但是对于一些重要信息系统的数据库数据大规模放闪存上,会不会有丢失风险?数据恢复是否容易?还希望看多更多的类似实践案例
li5227205li5227205系统工程师新云东方
2018-12-13 10:27
闪存盘位插槽的接口和闪存模块盘的接口是匹配的,目前主流接口有SATA、SAS和NVME三种接口,由于SATA和SAS接口是针对HDD盘设计的,但面对闪存速度上百倍的提升,接口的带宽就成为了I/O的最大瓶颈。
pysx0503pysx0503系统工程师第十区。散人
2018-12-13 10:10
对于全闪存阵列,很多企业除了高昂的价格,还会对新生产品持一种观望态度。特别是用于存储生产数据的重要设备,更多的企业更是不敢轻易去做第一个吃螃蟹的人。尽管全闪存阵列有着强大的性能和高效的速率,但仍然人们会担心用来存储数据的芯片发生问题后。数据是否能够得到有效的冗余保护, 全闪存的技术在不断成熟,通过更多的数据和用户体验。我想全闪存会逐渐成为主流的存储设备。
Ctrl+Enter 发表

本文隶属于专栏

趋势观点
本专栏的文章全部来自国内外行业或领域一线最强实践专家的深刻洞察,他们的分享如同为正在摸索前进的更多同行和企业带来一盏明灯。他们的观点也为企业迎接趋势挑战、克服各种困难提供了最好争议的标的。希望有更多一线最强实践专家加入趋势观点栏目,你们是推动中国企业IT应用最值得尊敬的人。

作者其他文章

相关文章

相关问题

相关资料

X社区推广