wangshuai_go
作者wangshuai_go2021-10-25 14:47
存储工程师, 证券

证券企业高端全闪存储产品测试经验分享

字数 5062阅读 3411评论 6赞 8

【摘要】:本文主要就证券公司核心系统存储采购选型中针对华为OceanStor Dorado 18000 系列高端全闪存储的POC评测分析进行讲解和经验分享。主要围绕以下几个维度展开:(1)存储品牌是否为市场上的头部品牌,在全球及国内市场长期表现情况、市场占有率、行业口碑等;(2)存储产品架构和技术先进性情况,系统设计参数分析等;(3)POC测试主要就功能性、高可用性能、存储架构验证、兼容性、协议可靠性、可维护性、性能等方面展开测试评估。希望可以为同业带来有益参考。

1 背景

1.1 背景需求

现网SAN存储涉及 多个 存储品牌 , 老一批 生产 存储开始进入到了“老年阶段”,其存储容量空间基本接近耗尽,同时伴随着部件老化存储设备故障率也出现了明显的上升情况。于是对这批存储设备的更新替换工作就成了当务之急。

2020年开始分批次启动存储设备更新替换项目工作。首要目标需完成市场上主流存储品牌的调研和POC测试工作为存储产品的选型提供有力参考。调研分析和POC测试主要围绕以下几个维度展开:

(1) 存储品牌是否为市场上的头部品牌,在全球及国内市场长期表现情况、市场占有率、行业口碑等;

(2) 存储产品架构和技术先进性情况,系统设计参数分析等;

(3) POC测试主要就功能性、高可用性能、存储架构验证、兼容性、协议可靠性、可维护性、性能等方面展开测试评估。

1.2 现网存储架构情况

存储配置:

(1) 生产环境的存储主要为 传统大厂的 高端存储, 同时在 虚拟化环境中引入了国内品牌华为厂商的OceanStor Dorado 6000 v3 系列 全闪存 存储。

(2) 单台存储一般配置512~1024GB cache,配置32~64个前端FC接口。

(3) 老一代存储采用的是SSD+SAS盘分层架构,这批存储容量空间 使用率 接近耗尽。近 几年 业务数据 又 增长较快需在主机端经常性扩容 增加 存储容量, 但新购存储流程周期长新存储到货还需一个过程, 在等不及 新存储 的情况下内部 团队 经过评估从2020年开始便开启了几乎全部SAN存储设备的thin超分配功能 , 其中 分配率最高的 一台存储设备 的物理使用率 接近 70%红色警戒线阈值。

(4) 从 19年开始 新购存储架构均选择 全闪存 存储 架构,容量分配均采用thin超分配策略。

SAN网络架构:

(1) 采用 两地三中心 架构 ,每个数据中心1-2个机房,每个核心机房配置 Director级别的 大型SAN交换机组成A、B 冗余SAN Fabric。各机房SAN Fabric之间不相互打通。同时也没有采用FCR、 long-distance Fabric 等跨机房、跨主机中心远程SAN网络技术。

(2) 虚拟化环境宿主机端口-存储前端口配比为1:2,即1台宿主机通过2个主机HBA卡端口联通1组存储前端口(4个1组),主机端单存储卷呈现4条路径。

(3) 非虚拟化环境DB等主物理机端口-存储前端口配比为1:1,即1台宿主机通过2个主机HBA卡端口联通1组存储前端口(2个1组),主机端单存储卷呈现2条路径。

存储连接的上层平台和业务环境使用规划:

(1) 虚拟化环境和物理机环境分别使用各自独立的存储,确保相互隔离无影响。

(2) 无论是虚拟化环境还是物理机环境,以2台存储为一组进行规划,使用时同一平台或业务的A、B集群主机分别各自接入1台存储,以增加应用总体架构的冗余性,同时降低单台存储故障影响范围。

存储复制和容灾技术的使用:

(1) 早期的核心存储两两做了双活,但后续规划均不再在存储层做数据复制或是双活。

(2) 目前的 总体策略是复制、容灾、高可用方案均在应用层实现,以降低存储层的复杂度,同时做到应用、主机、存储各层之间进行解耦增加灵活性和扩展性,不被特定存储技术和厂商绑定。

现网存储架构的痛点:

(1) 现网核心交易系统对存储的读写时延性能指标要求较高,对基础架构稳定性要求极高,特别是在交易时间段不能出现任何问题。

(2) 现网存储空间接近耗尽难以满足业务 发展 需求,需尽快发起设备替换并在替换过程中完成存储容量的扩容。

(3) 老一代存储采用的是SSD+SAS盘的混合分层架构,SSD介质作为热数据缓存区或承载tier1性能卷,SAS机械盘做为主存区或承载tier2性能卷,该架构是性能和容量成本妥协平衡的产物。该架构在应对突发型高IO并发、高带宽负载、IO读写命中率低的场景时会有明显的性能波动情况 的 出现(IO命中率低需要直接从SAS盘大量读数据场景影响尤其明显)。 同时SSD+SAS混合架构存储因为要预留性能能力(容量换性能)的原因不建议开启压缩和thin超分配功能。

1.3 存储产品品牌及技术类别选择

在监管部门及行业特性的业务连续性要求下,证券业核心存储解决方案的选型一般都较为审慎 。 通过 与 多 家存储厂商详细分析全闪存储发展趋势并对 业界 多家大型金融企业的全闪存储使用情况进行调研交流后,结合现网架构同时考虑未来存储架构的趋势发展情况,最终选择将全闪存储作为本次POC 选型的目标 , 其中包含了 华为OceanStor Dorado 18000 系列高端全闪存储 。

本文主要就 华为OceanStor Dorado 18000 系列高端全闪存储 进行评测分析 和经验分享 。

2 华为高端全闪存储架构分析

2.1 存储厂商品牌技术先进性分析


图: Magic Quadrant for Primary Storage Arrays Source: Gartner (November 2020)

从上图中的Gartner 2020年企业主存储品牌魔力象限排名可以看到华为不但依旧保持在Leader象限,同时做到了和老牌存储大厂Hitachi Vantara(HDS)、Infinidat齐头并进 的 趋势。

就本人从事存储运维行业 十多年 、多家大型金融公司的就职经验而言,华为存储的技术、架构的迭代和赶超进步速度进展迅速。预计随着时间发展,国外著名存储品牌厂商相较于华为存储的优势将 变的越来越 不明显。

2.2 不同厂商高端存储架构分析对比


图: 多个品牌存储厂商的高端存储架构对比

根据对各厂家的高端存储架构的了解情况画一个前后端对比的图如上。

以理论角度分析一个高可用性和扩展性的能力排名如下:

如上理论分析可用看出 华为OceanStor Dorado 18000系列 的高端全闪存储架构集成了各家存储架构所长,但又规避了各家产品架构的短板 仅从 理论 架构上来讲,华为2019年的高端存储架构将EMC、HDS、Netapp、IBM等一众厂商都比了下去 相比较之下EMC 的高端存储VAMX和Power MAX依旧采用2控Scale-out架构,单从存储架构上来说略显逊色。 ****

3 测试环境配置

3.1 测试 组网 拓扑


图- 验证组网图

图- 存储接口卡内部互连网络示意图

3.2 硬件与软件配置

3.2.1 存储系统配置

表- 华为OceanStor Dorado 18000高端全闪 存储系统配置表

3.2.2 配套硬件配置

表-配套硬件配置

3.2.3 测试软件及工具

表-测试软件及工具表

4 测试场景和方法****

4.1 测试场景

4.2 测试用例和方法详细(非性能部分)

  • 高可用测试

  • 功能方案测试

    • 兼容性测试
  • 存储架构互联测试

    • 日常运维操作和性能采集能力测试

4.3 测试用例和方法详细(性能部分)

  • 基础性能测试(各平台+各种IO模型)

    说明:

    1) 需针对非压缩卷、开压缩卷、开压缩去重卷进行以上模型的分别测试。

    2) 全部跑完总计需68(IO测试用例)30分钟2(压缩/非压缩)=68小时

    3) random(随机IO)_8k(IO size)_write(100%写)_t1_t4(4个threads/单LUN)_t8_t16

    4) 7r3w(70%读IO,30%写IO)。

    5) 8K IO size用于评估满足OLTP数据库等小IO size类型应用。

    6) 128K IO size用于评估满足OLAP数据库、web应用等大IO size类型应用。

  • 全闪存系统中大批量删除数据性能影响测试:

    说明:

    1) 注意提前写满100TB的数据到存储卷(可用vdbench进行模拟写入)。

    2) 删除数据前后为测试对应用和存储系统的影响(主要是性能影响),需提前通过vdbench将存储负载压到50%(负载太低测试效果不明显)。

4.4 测试难点

4.4.1 高可用性测试中如何真实的模拟应用受到的影响

影响主要包括:可用性影响和性能影响两块。

一直以来我的操作方案是通过vdbench软件来模拟应用受到的影响情况,包括可用性影响和性能影响两块,并且使用vdbench这种做法比直接使用具体应用来测试要更精确、灵活,更能直观的测出产品的高可用影响情况。

具体做法以测试控制器故障为例进行说明:

1) 在主机上使用vdbench工具对LUN进行持续读写。

2) 拔出任意一个控制器,在主机上检查vdbench工具的读写记录状态(每秒1行输出)。

拔出一个控制器时(时间:23:23:55),vdbench读写正常, IO出现持续约24秒跌落,**性能满足业务需求。**

4.4.2 如何通过脚本方式一次测试完所有的IO性能模型?

这里以vdbench测试Linux上文件系统性能进行示例说明:

5 测试结果

5.1 高可用测试


5.2 功能方案测试

5.3 兼容性测试

5.4 存储架构互联测试

5.5 日常运维操作和性能采集能力测试

5.6 大批量删除数据性能影响测试


说明:

3) 注意提前写满100TB的数据到存储卷(可用vdbench进行模拟写入)。

4) 删除数据前后为测试对应用和存储系统的影响(主要是性能影响),需提前通过vdbench将存储负载压到50%(负载太低测试效果不明显)。

5.7 基础性能测试

5.7.1 裸卷性能测试

  • 裸设备- 关压缩关重删 随机读写性能( 全命中 )统计结果

  • 裸设备- 开压缩关重删 随机读写性能( 全命中 )统计结果

  • 裸设备- 关压缩关重删 随机读写性能( 无命中 )统计结果

  • 裸设备- 开压缩关重删 随机读写性能( 无命中 )统计结果

5.7.2 文件系统性能测试

  • 文件系统-关压缩关重删随机读写性能统计结果
  • 文件系统-开压缩关重删随机读写性能统计结果

6 测试总结

结合以上对于 华为OceanStor Dorado 18000系列高端全闪存储 的测试,可做出总结结论如下:

1、 华为OceanStor Dorado 18000系列 高端全闪存储 在 存储架构层面有了质的飞跃**,符合国际一线存储梯队的水平。**

图: 华为OceanStor Dorado 18 500 V6 高端全闪存储架构图

2、 高可用测试各项指标表现优异,仅从测试表现看国外品牌在此方面的优势越来越不明显。

3、 兼容性、功能方案测试方面符合预期。

4、 CLI和RestAPI接口和功能完善丰富,可极大方便日后存储的脚本化或是程序化调度操作。

5、 可直接通过RestAPI从存储端获取完善的性能参数数据。

6、性能测试表现优异, 多数测试场景下的性能指标优于E厂商 ,性能测试总结:

  • 数据库、小IO密集型场景:

    两个场景综合来看,华为OceanStor Dorado 18000高端全闪存储表现更 优异 。

  • 8 K基准文件系统7:3读写场景:

    条件:物理机文件系统,8K,7:3读写

    测试结果总结: 华为OceanStor Dorado 18000高端全闪存储 / H厂商高端全闪存存储 > E厂商高端全闪存存储

    通过测试评估认为 华为OceanStor Dorado 18000 高端全闪存储在存储架构、技术先进性、高可用性、性能等多个维度上可以做到和H厂商、E厂商正面PK不落下风,性能方面更是优于E厂商。我们和业内同事都看到了国产品牌的进步与超越,我们也衷心希望以华为为代表的国产存储大厂继续进步,不断通过实践,了解更多客户业务需求,未来带给国内金融客户更好的产品和解决方案。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

8

添加新评论6 条评论

彤晓鲁彤晓鲁项目经理, H3C
2022-01-18 21:58
写的详细,学习了,为啥没有HPE的存储扼
firelord823firelord823系统运维工程师, 贵阳银行
2021-11-30 16:58
这个测试真的很详细了,很有借鉴意义,一般我们自己做测试的时候粒度会很粗犷,也不像文章中介绍的这么专业的测试点。有理论、有过程,点赞! 目前我们也体验了华为的“箭鱼”品牌dorado存储,确实比原来的oceanstor系列提升很大,存储性能提升是一方面,界面也更加友好了,对于运维人员的帮助提升真的挺大
zy7227zy7227网络工程师, bank
2021-11-29 11:54
文章进行存储背景需求分析,不同高端存储架构的横向对比介绍;清晰明了;测试组网、HBA卡连接示意图,软硬件配置清单,测试厂家介绍、测试用例,内容丰富,包括测试难点分析,兼容性测试、高可用测试,性能压力测试,测试总结,非常全面的测试报告和测试方案。感谢分享。
zy7227zy7227网络工程师, bank
2021-11-26 20:52
非常全面,经得住考验的产品。
daweydawey系统管理, 光大证券股份有限公司
2021-11-26 09:01
很好的POC测试文章。证券之前为了提升共享存储的安全性,一般都采用两台双控存储的做镜像方式,这种模式一台存储几乎是没有使用的,浪费很大,性价比很低,而且由于采用存储自身的镜像软件,又增加了一层风险点。所以很多券商开始尝试采用四控存储模式,在节约磁盘的前提下进一步提升存储的安全性。
michael1983michael1983技术总监, 某证券
2021-11-15 14:38
华为国货之光,强烈支持! 测试非常详细了,可作为测试参考样版给其他同业参考了,帅不是没有道理的。 1、非常认同不要把容灾和备份放在存储底层实现,会极大限制硬件底层的灵活性和健壮性。 2、测试周期总共用了多久? 有2个月? 3、稳定性仍需要更多的客户和使用方来验证,案例需要更多更广。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

NAS存储选型优先顺序调研

发表您的选型观点,参与即得50金币。