昼者
作者昼者2021-06-02 14:07
技术经理, 某省农信

省农信核心系统高端全闪存储POC选型经验分享

字数 6473阅读 16191评论 6赞 11

1 前言

近年来,随着技术线路、服务体系的成熟,在摩尔定律的作用下闪存性价比持续提升,全闪存储(简称“闪存”)在众多智能技术中异军突起,为银行业数字转型提供了更多的选择和可能。

存储技术的发展速度一直落后于其他 IT 技术。其发展一方面受限于对其可靠性和稳定性的严格要求,必须通过广泛的商业应用来检验,另一方面作为业务系统整体容灾方案中的关键环节,需与服务器、数据库及应用架构等容灾技术相兼容和匹配。因此,银行在核心存储选型时必须进行 POC 测试,以验证备选存储设备的功能、性能及解决方案的可行性。笔者所在行于 2018 年,在业界较早对 4 家传统及国产存储高端全闪存储进行了为期 4 个月的实地 POC 测试,并根据测试结果择优选择了华为 OceanStor 18000 系列高端存储及其容灾解决方案,投产后运行情况良好。本文较为详细地介绍了某省级农信社在核心全闪存储选型 POC 的测试方法及重点内容,以期为同业提供有益参考。

2 背景

随着业务蓬勃发展,各应用系统数据量和交易量大幅增长,为有效提高基础架构各项高可用技术的整体性能和可靠性,计划通过建设同城双活中心以提高业务连续性并达到监管要求。为进一步论证同城双活中心容灾方案的可行性,我行针对业界主流基础架构的高可用技术和产品进行基础架构整体方案的功能和性能测试 , 以实际测试结果作为现有核心架构优化及容灾技术选型的有力参考。

2.1 存储产品品牌及技术类别选择情况

在监管部门及行业特性的业务连续性要求下,银行核心存储解决方案的选型一般都较为审慎,因此本次 POC 选择了业界较为传统的 3 家存储领先品牌 A 、 B 、 C 及 1 家国产存储厂家华为。

2.1.1 存储技术类别选择

2018 年正是全闪存储强势崛起阶段,但用于资产规模超万亿银行的核心系统案例较少。我行与 4 家存储厂商详细分析全闪存储发展趋势并调研已使用全闪存储同业情况后,结合现网架构瓶颈,最终选择将全闪存储作为本次 POC 选型的目标。

2.1.2 现网存储架构情况

现网存储架构于 2012 年上线,品牌为传统 IT 厂商 A ,存储单台配置为 128GB cache , 384 块 300GB 15k FC 盘。该架构下,与数据保护相关高可用技术及功能如下(不含带库部分):

( 1 )基于 AIX 的 LVM Mirror 技术:

LVM Mirror 将数据同时双写于两份存储,当任何一份存储或数据不可用时,另一份存储可进行无缝接管,实现本机房内 RPO=0 , RTO=0 ;

( 2 )基于 CDP 的持续数据保护及快照技术:

CDP 开启持续数据保护功能,并每间隔 10 分钟触发一次快照。当数据出现逻辑故障时,可快速通过最近一份快照根据持续数据保护功能的日志回滚至逻辑故障前,找回数据,以此实现逻辑故障保护;

( 3 )基于存储的 FlashCopy 快照技术:

每日核心系统夜间批处理前后各触发一次基于存储的快照(独立 LUN ),其中批前快照为增量快照,用于日库及参考库;批后快照为全量快照,为 ODS 等系统供数。

图 1 现网存储架构

2.2 现网架构存在的痛点

现网核心系统瓶颈主要在于存储读写延迟较高,结合核心系统应用特性(数据库超时时间较短)对基础架构稳定性要求极高,导致核心系统数据库卡顿(无响应)频繁,严重影响客户体验。

3 测试难点

存储设备作为银行信息系统中最为关键的核心设备,不仅存放着全行业务及管理数据,同时也是容灾解决方案的主要底层技术,选择了某品牌存储一般意味着就选择了该品牌的存储高可用技术及所配套的容灾解决方案。因此在选型测试中不能仅考虑单台存储性能及功能,而应将整体容灾解决方案作为着眼点,通过实地 POC 测试来为存储选型提供真实有力的参考。在选型测试方案的制定中面临着三个难点。

3.1 如何真实测试存储解决方案的功能?

主要涉及三个方面,一是如何测试存储单机稳定性及冗余性。二是如何测试多站点存储高可用方案的容灾功能。三是如何测试存储与其他容灾产品兼容性及整体解决方案的容灾功能。

3.2 如何真实测试存储解决方案的性能?

存储厂商在推介产品时,往往依据存储白皮书中实验室所测量数据,但由于实际业务场景相比实验室更为复杂,产品使用情况与理想数据相差甚远。如何在差异化的复杂业务应用场景中选择测试案例来更为真实的测试存储解决方案性能,是存储选型测试的关键难点。

3.3 如何保障测试工作的完备性和有效性?

存储设备价值较高、产品技术涉及面广、测试案例数量繁多、测试持续时间较长,行内及参与测试存储厂商均须投入大量精力及成本,因此在资源有限的情况下,需要制定针对性措施来保障测试工作的完备性和有效性,才能达到存储选型测试的目标。

4 测试方法

4.1 测试方法的关注点

4.1.1 选择合适的测试载体

测试一般选择真实系统的痛点场景,如高并发、大批量等应用程序作为载体来测试衡量存储产品功能及性能。我行选择核心系统中计算和存储资源消耗量最大、并发度最高的存款结息批处理作为测试载体。

4.1.2 重点关注整体解决方案功能

一般来说,在银行核心系统相关产品选型时,需要根据实际业务增长量或业务种类发展情况,在现有性能需求基础上,上浮 1-2 倍,其上限相对产品实验室性能指标在 50% 以内,以此来选择产品技术线路,确保存储整体解决方案的性能冗余。因此 POC 应该重点关注整体解决方案功能,以确保基础架构的稳定性。

4.1.3 完备可靠的保障体系

一是公平公正。 POC 测试的目的是为了在商务采购方面提供更符合行内实际情况的技术需求和选型依据。因此在选择测试设备品牌和配置、制定测试案例时应尽量统一标准,兼顾公平与效率;二是科学合理。 POC 不仅需要测试设备功能及性能,也应对设备厂商的技术支持体系进行考察,作为售后能力的重要评价标准;三是分工明确。明确参与测试厂商及行内在测试中的分工,特别是操作系统、数据库等与存储解决方案性能相关重点基础软件产品调优的工作职责,是保障 POC 达到预期目标的关键措施。

4.2 我行测试方法相关内容

4.2.1 POC 测试分工

( 1 )我行负责提供机房环境,并提供主机环境、 SAN 环境、应用的搭建;

( 2 )参与本次测试的存储厂家负责根据本次测试要求提供合理的详细架构方案及存储等方案所涉及的相关产品,并将存储等产品运至我行指定的机房地点,上架安装,按照我行的要求划定 raid 组和卷,供主机识别进行测试,并负责输出测试报告。

( 3 )为保证测试真实有效,我行全权负责监控、把关所有测试过程。

4.2.2 参与测试的存储产品及架构方案要求

( 1 )各厂家提供的存储和高可用架构方案在效率和高可用性方面不得低于现有我行核心存储的架构及配置。本次参与测试的存储必须为各厂家高端存储(全闪存型号,或者传统机头 + 全闪存盘),且本次参与测试的存储及方案将作为后续我行采购标的的最低配置,架构方案必须是在实际生产环境中能够落地的方案,且必须已在省级及以上银行金融机构的核心账务系统中使用过 1 年(方案中需涉及实施风险评估、数据迁移、周期、停机时间等实施内容);

( 2 )方案中涉及第三方产品的,由架构方案提供方(存储厂家)统一提供和协调相关产品的部署、实施和测试等所需的相关资源;

( 3 )本次要求提供至少 2 台同等型号和同等配置存储参与测试。为了更好的发挥全 SSD 的性能,每套存储配置控制器个数 >=2 ,缓存 >=1TB , 48 个 16G FC 端口,对外至少提供 95TB 的可用容量。本次配置阵列双活和远程复制功能。

( 4 )各厂家基于上述要求,提供本次存储选型 POC 测试方案详细文档。

( 5 )最终测试报告,需存储厂商签字生效。

5 测试内容

5.1 测试基本情况

针对本次存储设备选型,测试案例主要涉及功能、性能及厂商推荐用例三个方面。本次存储选型,必须结合行内核心应用系统对存储进行测试,从功能、性能两大方面,验证存储是否满足核心系统业务要求。

5.1.1 测试环境逻辑拓扑

图 2 逻辑拓扑图

5.1.2 测试环境物理拓扑(示意)

( 1 )在下图中, IBM 小机共计 3 台(生产中心 2 台,容灾中心 1 台,均由行方提供),每台小机分别做 2 个 Lpar ,分为 DB 和 APP 。本次测试,数据库软件指定为 DB2 10.5 。

( 2 )因存储需实现本地高可用,远程复制的诉求,故存储设备间的连线之类,由各厂商在各自提供的方案中详细描绘拓扑。存储设备由各厂商自行带入参测。

( 3 )为模拟行内真实业务场景,本次测试中,本地存储和远端存储之间的光纤连线为 50KM ,且两端有波分设备,用于降低光信号衰减。

图 3 物理拓扑图

5.1.3 测试设备清单


表1 测试设备清单

5.2 功能测试

存储功能测试将从功能性、可靠性、可维护性等方面,对存储设备进行全面测试。存储及整体解决方案需支持行方核心系统全业务流程,并实现存储设备容灾切换等功能。



表2 功能测试表

5.3 性能测试

存储性能测试需使用行内认可的第三方性能测试软件,模拟核心应用系统业务流,对存储设备进行性能测试。

5.3.1 测试要求

要求性能测试结果不低于我行现有核心架构下的性能。

5.3.2 测试内容

( 1 )设定基准测试场景,采用行内当前正在使用的 LVM+HACMP 架构进行测试。

( 2 )在此基础上,变更对应的双活复制或者远程方案方案,进行不同方案下性能测试。

( 3 )性能测试由第三方测试厂商协助完成,下表为测试大纲。


表3 性能测试表

5.3.3 测试方法

( 1 )设定基准测试场景,采用行内当前正在使用的技术架构。


表4 性能测试记录表

5.4 厂家推荐用例

结合行内现网业务系统,由各厂家提供能够展现产品优势的相关推荐用例,作为自选加分项。

6 测试结果

在 4 家存储厂家的大力支持下,通过 4 个月的 POC 测试,根据测试方案对同城双活中心建设中可以选用的存储架构和逻辑架构都进行了测试,同时对不同架构下的性能做了横向对比。为了更加贴近今后的使用需求,本次存储测试在服务器、 SAN 网、数据库和测试数据等方面都选用了光谷中心的真实配置,并在每个存储厂商测试之前恢复到初始状态,保证了测试环境的一致性。

根据实际的工作流程,我们从厂商技术服务实力及备件情况、技术架构、功能、性能这 4 个维度对测试结果进行了分析。

6.1 厂商配合力度及现场备件情况

本次测试厂商都安排了专业技术人员参与测试,本地售后工程师提供了硬件相关技术支持。从技术上来看, 4 家厂商的售后工程师对于产品都比较熟悉,经验较为丰富。从参与测试技术人员数量上来看,售后工程师数量方面华为 >A>B>C (其中华为存储研发团队现场支持)。从备件储备上来看, A 、 B 和华为均有本地备件库, C 暂无。

6.2 性能测试结果

图 4 A 厂商性能测试结果

图 5 B 厂商性能测试结果

图 6 C 厂商性能测试结果

图 7 华为存储性能测试结果

6.3 测试结果汇总 ( POC 重点技术指标汇总 )


表 5 测试结果汇总

7 总结

根据上述思路及测试方法,我行通过 4 个月的 POC 测试了 4 家厂商全闪存产品及整体解决方案的性能及功能,为我行同城双活中心建设中基础架构容灾解决方案选型打下了坚实的基础 。基于良好的测试表现, 以及基于存储本地双活架构 的 分片负载均衡 IO 下发 和满分条新写等 大幅提高存储写入效率的 特性 技术 , , 最终选择了 6 台华为 OceanStor 18000 系列高端存储构建了核心类和重要类业务系统两套本地双活、同城 3DC 的容灾体系架构。

7.1 测试方案中的不足

7.1.1 参与测试的存储架构有所差异

在实际 POC 中,由于参与测试存储厂家的产品生产地有所不同,受限于到货时间、成本等因素,部分厂家仅提供了 2 台全闪存储,同时也存在存储配置有所差异的情况,在一定程度上影响了测试结果。

7.2 华为 OceanStor 18000 系列高端存储投产后实际运行情况

7.2.1 与原生产传统存储性能对比

( 1 )平均读时延和最大读时延,由原架构的 2.41ms 和 15.41ms ,提升为当前的 0.4ms 和 0.7ms ,提升约为 6 倍;

( 2 )最大写时延,由原架构的 4.75ms ,提升为当前的 <1ms 提升约为 4 倍;

( 3 )平均写时延,由原架构的 0.44ms ,提升为当前的 0.4ms ,略有提升;

7.2.2 与 POC 性能对比

投产后所展示的性能与前期 POC 性能相比,几乎持平,略有差异,主要影响因素为:

( 1 )投产存储架构同时叠加双活、多份 hypercopy 、多份快照等容灾特性;

( 2 )生产环境同一存储架构中同时运行多种业务场景,对性能有一定干扰影响;

( 3 ) POC 测试时业务比较单一,数据量较小,当前上线业务系统比较复杂,数据量较大,故略有差异;

7.2.3 真实业务运行情况

各类系统架构升级投产后,稳定性和性能均大幅提升,夜间批处理全量时间由 5.5 小时缩短至 3.2 小时,其中决定网点门市业务的日启批处理时间由 3 小时缩短至 1.4 小时,耗时最长的存款计息批处理由 110 分钟缩短至 15 分钟。

8 结语

我行在同城双活中心建设的规划阶段开始筹划存储选型的 POC 测试方案,综合考虑系统瓶颈、同业案例以及技术发展趋势,将全闪存作为 POC 基准,全面、真实的评估全闪存的高可用功能及性能。

邀请 4 家存储领先厂商,选用多台最新型号的全闪存储,模拟多站点容灾场景,确保存储产品的专业技术能力和测试的全面性。在测试中以应用场景为核心,选择以核心系统耗时最长、资源开销最大的存款计息批处理作为 “ 试金石 ” ,测试了业界常用的各类操作系统、数据库及存储等高可用技术组合的容灾架构性能。通过为期 4 个月的 POC 测试,较为全面的测试了 7 种容灾技术组合的功能和性能,为存储及容灾架构选型打下坚实的基础。在国家支持自主可控的大背景下,我行优先选择了满足技术条件并且拥有完全自主知识产权的华为全闪存作为核心、重要类系统存储及同城双活中心存储容灾方案,存储运转性能与 POC 测试情况相符,达到预期效果。

由于技术产品及方案的复杂性和测试方案的完备性,本 POC 测试结果仅代表我行实际测试情况,撰写本文仅希望能抛砖引玉,为同业核心存储架构选型提供有益的参考。

随着同城双活项目的成功上线,华为 OceanStor 全闪存储的顺利投产所带来的系统性能提升,让我们坚定了数字化转型的信心。一是技术发展带来展业机会。核心类系统升级成功后,在原应用架构几乎不变化的情况下,支付类交易 TPS 提升 54% ,交易耗时大幅缩短,使我们顺利度过春节前业务高峰期,极大的提升了客户体验,为业务发展带来了新机会。二是 6 台核心及重要类系统存储投产后,存储高效稳定运行,性能符合预期,坚定了我们对生产核心设备国产化的信心。三是同城双活项目建设中,实施团队所展现出勤恳的工作态度和突出的专业能力进一步增强了我们对高端国内厂商交付能力的信心。

目前数字化转型已作为国家战略,成为全行业的基本共识,但数字化转型并非一蹴而就,而是需要因地制宜的制定符合企业现状的个性化转型路径。在互联网技术发展日新月异的今天,技术发展之快前所未有,人工智能、区块链、云计算和大数据等技术都得到了各行业的青睐,在数字化转型技术的选择上我们应该避免为技术而技术,技术只是手段,融合业务发展才是目的,因此我们应该积极备好余粮,做好长征的准备。同城双活中心的建设只是我行数字化转型的一个缩影和起点,在全闪存的助力下,我行数字化转型之路将走得更加从容,也为各行业数字化转型中的技术产品选择,提供了有益的参考。最后,祝愿大家数字化转型之路乘风破浪,一帆风顺!

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

11

添加新评论6 条评论

chenmingfuchenmingfu基础架构组长, 西部某城商银行
2021-06-06 17:52
该测试方案较为全面且测试案例考虑充分,涉及了多个品牌设备及多个真实应用场景,测试内容及测试手段较为全面丰富,测试结果数据真实有效,比当前存储厂商提供的官方性能数据更具有说服力,具备很好的行业设备选型参考价值,对数据中心存储本地高可用与同城灾备体系建设都有较强的参考价值。实际场景下,大部分用户可能并不具备在用户现场进行多个品牌设备的完备POC测试条件,只能基于实验室指标上浮一定的比例。
purposepurpose技术经理, 中原银行
2021-06-04 16:59
测试方案很详细,总结也很到位,比较有借鉴意义。
LINE2008LINE2008系统工程师, 北京北鹰吉成科技有限公司
2021-06-04 10:36
方案逻辑清晰,很完整,从方案到测试,是一个可以具体实施的方案。值得借鉴,学习。收藏了。
firelord823firelord823系统运维工程师, 贵阳银行
2021-06-04 10:30
测试方案很详细,有借鉴意义。其中4.1.2节的性能参考方式也很好,现在厂商提供的实验室指标都是虚高的,对于银行科技不可尽信,不能不信
nirvana707nirvana707技术经理, 华融
2021-06-04 09:36
测试方案详尽,值得借鉴。非常不错的文章!
DongxinDongxin系统架构师, 某银行股份有限公司
2021-06-03 17:49
核心存储的测试选型方法非常值得参考,从功能、性能、可靠性维度进行实测,比较有借鉴意义。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

核心存储选型优先顺序调查

发表您的选型观点,参与即得50金币。