kubinee
作者kubinee2022-05-13 16:39
存储架构师, 金融企业

某金融企业核心存储POC测试及选型经验分享

字数 4289阅读 5840评论 3赞 14

【摘要】

本文通过金融企业的核心存储的POC选型,从企业实际需求出发,制订详尽的需求分析及测试方案。测试了包括存储性能测试、高可用测试、功能测试、容灾高可靠等共计29个测试项目。通过详细的POC测试作为存储选型对比数据,为最终选型提供可充分的依据。

1. 项目背景

企业原核心数据库系统使用的是EMC XTREMIO核心存储系统,EMC XTREMIO是EMC全闪存存储,特点为高性能,性能稳定,压缩对性能基本无损,采用了同城及异地异步复制的两地三中心方案,承载着公司高压力系统的数据库,目前该套存储系统使用期限即将达到5年,存储平均使用率达到了预警线,需要进行选型更换。选型存储需要配置满足未来业务需求的性能和容量,以满足未来5年企业内数据库对核心存储的容量、性能和数据保护需求。

2、需求分析

2.1 总体需求

1) 以“两地三中心”灾备模式为设计目标,同时满足同城灾备和异地灾备需求;可以不考虑现有的存储架构和灾备模式;
2) 在本地存储架构上要实现完全冗余,不存在单点故障,并提供连续或定期快照方式的数据保护能力,用于防范业务系统的逻辑故障;
3) 不能由于灾备的实现而降低本地存储架构的稳定性;
4) 生产机房与同城灾备机房之间能实现双活或者同步的双向复制。
5) 生产机房、同城灾备机房能与异地灾备机房能实现双向的异步复制。RTO和RPO尽可能少。异步复制最好有带宽缩减功能。最低限度需要保证同城灾备RPO<5min,RTO=15分钟;异地灾备RPO=5分钟,RTO=2小时的要求。
6) 生产机房、同城灾备机房、异地灾备机房均采用NVMe全闪存作为存储介质。
7) 支持Windows,Linux等主流操作系统,支持Oracle数据库,支持VMware虚拟化环境。主要业务为Oracle数据库。
8) 具有完全在线、无需停机的平滑升级能力,包括软硬件微码升级。
9)存储架构应尽量简单,并能降低日常管理的复杂度和故障排查的难度。
10) 方案可通过一个或多个产品实现,但多个产品必须是同一厂商的(SAN网络相关设备除外)。

2.2 功能需求

1) 全冗余架构的三套NVMe全闪存磁盘阵列;
2) 提供本地连续数据保护功能或提供的快照功能能够在不大影响性能的情况下支持每5分钟执行一次快照、并保留一天,用于防范业务系统的逻辑故障;
3) 提供自动精简,支持压缩、重删功能;
4) 提供多路径的冗余和负载均衡功能;
5) 提供SSD寿命监控,显示SSD的健康状况,并可以估算SSD盘寿命;
6) 提供详细的硬件状态和性能监控功能;
7) 提供颗粒度更为细致的权限管理功能;

2.3 容量需求

根据存储系统的历史增长情况,核心存储上数据库的数据增长率随着数据量的增加而增长,按照目前业务发展及数据库数量增长情况预估,未来五年每年数据增长率约为40%,按照这个增长率,新采购存储容量需求需要达到现有存储的3倍以上。考虑到不同的存储系统,有最佳的容量配置,在采购时允许容量有10%左右的偏差。

2.4 性能需求

核心存储对存储性能要求较高,核心存储系统采购后需要同时满足以下需求:

启用精简配置、数据压缩、重删和异步复制、快照功能的情况下;在随机混合小IO模型下,生产环境提供120万IOPS的性能,异地灾备环境提供90万IOPS的性能;此时磁盘阵列的IO平均响应时间小于1ms。

启用精简配置、数据压缩、重删和异步复制、快照功能的情况下;在随机混合大IO模型下,生产环境提供50GB/s的性能,异地灾备环境提供35GB/s的性能。

2.5 服务需求

1) 原厂实施服务,负责整个环境的搭建,及协助制定可行的数据迁移到新存储上的方案;
2) 5年7*24小时、4小时上门的故障维护及技术支持服务;硬盘保留服务;
3) 每季度的现场巡检;
4) 提供标准的远程技术支持服务。

2.6 小结

计划采购的核心存储,按照目前存储3倍的可用容量及性能,同城机房各部署一台不低于120万IOPS ,50GB/s的性能的高性能存储,异地机房部署一台不低于90万IOPS,35GB/s的性能的高性能存储。

新购存储相比目前在用的高性能存储,需要在以下方面提升:
可用容量提升至少3倍;
性能提升至少3倍;

3、企业存储整体现状及规划

3.1 现状分析

目前存储的类型主要分为SAN存储、NAS文件存储和OBS对象存储。三种存储的主要对比如下:

当前已有SAN存储(主要用于数据库应用)、NAS存储(主要用于文件类应用)和OBS对象存储(主要用于数据归档及静态数据保存)。从存储架构上划分,可分为SAN存储架构和超融合架构,各存储架构的对比如下:

对于SAN存储,分为传统SAN存储和高性能SAN存储。目前正在使用的XIO存储系统,为高性能SAN存储架构,该套存储主要用于生产高性能数据库,有较高的性能要求,需要有快照,异地灾备等功能的保障。对于不同类型的存储,传统SAN存储能在满足业务性能需求的同时,提供丰富的存储系统功能,特别是支持连续数据保护的“两地三中心”容灾功能,最大限度保证生产系统的稳定和数据安全。高性能SAN存储主要用于普通SAN存储无法满足性能要求的应用,但优先保证性能,通常情况下需要放弃连续数据保护功能,只能通过存储快照的方式进行逻辑数据保护。而超融合架构,更适用于对数据保护功能要求较低的分析型数据库和非关键数据库。

对于传统架构存储及高性能存储的区分,从最近几年的发展情况来看。传统架构存储也在不断借助NVMe闪存介质,分布式理念提升其性能,性能的扩展能力及性能上限上,已经不输于分布式架构存储。因此,对企业内传统架构存储及高性能存储的区分主要是从使用定位的不同进行区分。

4、核心存储选型思路

根据选型需求,制定了全面的存储测试方案,包括存储性能测试、高可用测试、功能测试、容灾高可靠测试,共计29个测试项目。根据Gartner主存储魔力象限及全球企业存储市场排名,邀请主要的存储厂商进行了技术交流及POC测试,通过交流及测试情况,选择符合需求的存储产品进入报价对比环节。

5、核心存储POC测试方案

5.1测试说明

根据测试要求,对4.9中的每项测试场景进行测试,并将测试截图及测试结果记录到测试报告。

4.2测试目的

对存储高可用性和性能进行测试,以便后续对存储选型和使用提供可行性参考。

测试内容:
ü 存储性能测试
ü 存储高可用测试
ü 存储功能测试
ü 容灾高可靠测试

4.3测试环境拓扑图

4.4测试环境要求

• 4台Linux物理主机,每台2块16Gb/s HBA
• 每台物理机分配16个500GB Lun
• 多通道管理软件访问存储
• 每张HBA卡访问2个存储端口,一个磁盘共4条路径

4.5测试存储配置

4.6 IO模型

4.7 测试工具

4.8前置条件

4.9测试场景

5、测试效果及选型经验

通过标准化的存储选型POC测试方案,经过对主流存储产品POC测试及对比后,最终选择了华为OceanStor Dorado 18000系列高端全闪存储。由于需要的测试设备及准备物料较多,在测试内容上做了不同型号的区分,针对基本功能、性能、可靠性,使用华为OceanStor Dorado18000系列高端全闪存储进行测试,在3DC组网测试时采用存储架构一致的OceanStor Dorado 5000系列全闪存存储进行测试。我们认为,在存储架构上,Dorado 5000系列和Dorado 18000系列基本一致,该测试是具备参考价值的。华为Dorado系列存储在测试过程中顺利的完成了所有存储高可靠及容灾高可靠测试,在性能上也有较好的发挥,符合预期。

不同厂家的存储在架构技术、快照及压缩技术上有所不同,通常厂家给出的官方基准性能数据都是不开启压缩、快照、复制等技术的情况下的性能数据,但生产通常存在同时使用几种技术的情况,因此,性能测试阶段,着重在进行开启和未开启压缩、快照、复制等技术情况下的性能测试。部分厂家在开启压缩、快照、复制后,会有15%以上的性能损耗,华为OceanStor Dorado存储测试性能损耗在5%以内。以下是部分华为存储性能测试结果汇总。

5.1存储性能

通过8K的OLTP类小IO数据模型和64K-128K的OLAP类大IO数据模型,对存储进行进行性能测试,从测试结果来看,IOPS符合该套测试存储的预期性能指标,说明存储在存储性能预估上,是严谨可靠的。

5.2存储高可用

存储高可用测试主要测试存储在各种组件异常情况下,存储是否会出现服务中断、性能大幅下降等情况,从而验证存储的可靠性。测试采用Vdbench,在主机端发起IO,IO控制在存储实测最大值的50%。通过断电、拔线、拔盘等物理手段模拟各类故障。记录模拟故障前后的测试数据及存储状态。通过对比模拟故障前后的对比数据,可以清晰的了解存储在各类故障场景下的高可用及性能影响情况。

5.3存储功能测试

功能测试除了测试存储的压缩、QOS、快照、同步异步等常规存储功能外,着重进行了开启这些功能后对存储性能损耗的测试。测试采用Vdbench,在主机端发起最大的IO,通过对比存储开启压缩、重删、快照等功能前后的测试数据,即可了解各项功能的性能损耗。

5.4存储高可靠测试

存储容灾高可靠测试主要针对多站点之间的双活,同步异步,主备切换等功能进行测试。测试采用Vdbench,在主机端发起IO,IO控制在存储实测最大值的50%,测试在各种站点故障和双活、同步情况下的存储功能情况,由于双活、同步等情况的存储性能受站点间网络延时情况影响最大,对双活及同步异步的测试不参考具体影响比例。

6、总结

华为OceanStor Dorado 18000系列高端全闪存储最近两年有了很大的进步,整体架构、功能、性能上提升较大。新一代存储中也较好的解决了前几代存储存在的问题,例如:异地带宽压缩、存储压缩重删的性能影响等,在POC的实测数据都比较理想。另外,华为存储在国内金融核心应用场景也在不断增加,稳定性及性能均达到了较高的水平。通过本次核心存储的POC测试,也为我们将核心存储从EMC存储替换为国产的华为存储提供了充分的依据及充足信心。

本文并未详细介绍存储POC测试的具体过程,主要从POC的需求及测试方案的制订角度出发,进行了简单的经验分享,希望本文的测试及选型经验能为业内业外的存储选型的POC测试提供参考意义。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

14

添加新评论3 条评论

Senko leeSenko lee系统架构师, 江西裕民银行
2022-09-01 18:38
测试数据详实,故障场景丰富,写的不错,值得研习!
sunsunskysunsunsky性能架构师, 浪潮
2022-07-28 14:29
请教一下 5.3中,不开启重删压缩的性能是179863,这个在描述中是最大IOPS,但是在5.1中的性能不是85w吗 这个差距怎么这么大? 是测试方法不同吗

kubinee@sunsunsky 5.3中的17.9万是数据库模型测试,通过搭建的Oracle数据库直接进行测试,与vdbench模型不一样。5.1中的第三个表也是数据库模型测试。测试结果也是17.9万

2022-08-15 15:45
匿名用户
2022-07-18 14:36
写得非常好,点赞!
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

相关文章

相关问题

X社区推广