blarbla
作者blarbla2022-01-26 18:47
存储架构师, 某股份制银行

某大型商业数字化转型:数据存储创新方案及实践经验

字数 4788阅读 995评论 1赞 4

【摘要】

人工智能、大数据、区块链等金融科技底层技术逐渐成熟,推动了金融科技的应用逐渐深化,进一步实现了金融与科技深度融合、协调发展,明显增强人民群众对数字化、网络化、智能化金融产品和服务的满意度,使我国金融科技发展居于国际领先水平。

这对商业银行来说,是机遇也是与挑战。机遇在于,通过新兴科技的赋能,商业银行有机会通过差异化业务的创新,在支付、交易等环节提升用户体验,获得更多用户的青睐;而挑战在于,随着金融业务全流程数字化转型力度加强,对IT基础设施建设和运维技术也提出了更高的要求,尤其是数据基础设施(存储)作为数字化的底座尤为突出,目前银行业IT存储运维管理普遍存在着设备性能要求高、设备管理要统一、数据运维要智能的迫切需求。本文针对这些存储运维的痛点结合银行数据中心的实践提出了一些解决方案。

【作者】彭毅,某大型商业银行信息科技部技术架构师,数据中心资深系统管理员,从业近20年,主要负责存储和数据库管理,曾负责行内核心业务系统等多套大型重要系统的技术架构及业务连续性建设工作,精通数据库、存储及相关灾备技术。

1、银行存储运维管理需求分析

1)通过存储设备闪存化以提升设备性能

随着智慧银行的建设,业务复杂化带来对数据存储性能的极致要求,生产交易类重要系统存在高性能、高安全性、持续稳定的挑战。银行数据中心需要有一个安全弹性的数据基础设施架构,从底层设备构筑高性能的数据存储底座,具备高安全、高可靠、弹性、敏捷特征,从容承载海量数据,同时还要兼顾绿色节能和机房空间占用问题;

2)通过统一管理软件以实现存储设备统一管理

面对厂商多样化、设备数量多、版本不同、类型各异的问题,对设备的管理一直都是困扰存储管理员的问题。以获取告警为例,在原来的流程下,为了确保获取信息完整,尽可能排查问题。IT运维人员需要从存储管理员、主机管理员、交换机管理员处依次申请获取告警信息,逐一对告警进行检查和确认,由于涉及到多个部门、多个软件的协同和反馈,通常端到端检查完一个告警需要60分钟,如果要确认完全部告警需要4个小时。

对此需要一个能够统一管理设备,统一提供告警、数据发放、运维等功能的软件。

3)通过运维自动化以达到智能运维管理

在设施运维层面,运维的自动化水平是数字化转型的要素之一。运维系统从一个追求稳态的系统走向稳态+敏态的系统,不仅仅是要求系统7X24小时的稳健运行,还要保证对业务的敏捷。同时设施运维不仅仅是一个支撑服务,要更多地融合业务,给业务带来新的价值。另外运维的流程将慢慢从以人力为中心,迈向面向自动化的业务流程重构,最终发展为自动驾驶IT运维系统,让更多的运维人员从繁杂工作中解放出来,投入到更加有创新性的工作。

对此需要一套不仅能及时发现问题,还要能快速定位、定界、解决问题,并且对于性能、容量问题能够提前预测的智能运维软件。

2、技术方案

1)存储设备选择全闪存,迈向高性能与绿色低碳

首先从存储设备层面来看要能够及时响应交易请求,具备高水平的保障控制能力,而全闪存产品由于高性能和低时延的表现,某商业银行自2016年已开始在核心系统上使用闪存存储产品,目前已实现了全闪存化数据中心的建设。

全闪存数据中心的建设主要以绿色节能、安全可靠为目标。在绿色节能方面,通过存储全闪存化,降低数据中心整体能耗(单TB整体能耗下降约50%,全部替换SSD后预估数据中心整体能耗下降21%),节省机房机柜资源(同容量闪存存储占用机柜空间可减少80%以上),提升计算性能(响应延时可从2-3ms提升至0.1ms以下,最多可至0.01ms),减少运维成本(ssd闪存盘年平均故障率一般为0.2%-0.5%,机械盘年平均故障率1%-5%,机械盘故障率是闪存盘5-10倍)。通过引入全闪存储产品,一方面机房的空间使用率得到了有效提升,可在原有机房空间规划的基础上更好地满足业务系统上线的设备空间占据;另一方面,某商业银行作为国内绿色金融的先行实践,存储设备全闪存化大大降低了数据中心的整体能耗,推进了智慧银行建设向低碳节能绿色阶段迈进。

2)设备管理选择和华为联合创新,孵化出数据中心“一张网”方案

面对统一管理诉求,某商业银行和华为公司进行了联合创新,借助华为在ICT领域近30年的运维管理沉淀,解决存储统一管理的诉求。目前通过华为智能数据管理平台DME(Data Management Engine,数据管理引擎)的统一管理,对数据中心的华为、EMC、IBM存储,光纤交换机及VMWare虚拟主机进行了统一管理,获取不同设备的告警、容量、维保信息、性能等信息只需要在DME一个软件上确认即可。让原本割裂的数据发放、运维、保护等操作,合并成完整的数据全生命周期管理,让数据变得可控可回溯。

3)设备运维选择和华为联合创新,孵化出AIOps的智能运维方案

面对智能运维诉求,某商业银行和华为公司进行了数据运维的联合创新,构筑了端到端的自动化监控和运维能力。AIOps借助机器学习算法,可以自动从海量运维数据中不断分析和学习,实现异常检测、瓶颈热点分析和多维关系分析等,从而帮助IT运维人员准确甄别系统异常、快速定位故障根因,并对系统运行的潜在风险进行主动预测,提前告警,最终实现IT基础设施和业务的持续洞察和主动优化改进。

3、实践经验

1)统一管理,数据中心一张网

随着业务多年的发展,数据中心存储设备复杂多样的问题也较严重, 华为、HPE、DELL EMC、IBM、HDS等厂商的存储设备同时在使用,当做业务变更或者设备维护操作时,管理效率低,每人平均管理数十套设备,每套设备有各自的管理界面,学习维护成本高。

早些年为了便于配置和管理,我们选择了IBM SVC虚拟存储网关来进行集中管理,但是这种架构后端存储所有硬盘的IO都会集中在网关处,虚拟网关增加了IO路径和时延、性能及扩展性差、只能管理块存储等弊端越来越突出,同时SVC异构纳管后也将丢失原存储的部分高级特性。

面对这个问题,我们提出了是否可以利用DME平台进行存储设备的“一张网”纳管。通过和华为的联创研发和实施,DME平台目前不仅支持华为集中式存储和分布式存储的纳管,同时还支持DELL EMC,HPE,IBM,HDS,博科,思科等友商存储和交换机的纳管,甚至IBM SVC存储网关也实现了纳管。对于非华为存储纳管DME平台采用的是Delfin开源统一框架,由开源开发者贡献设备的driver方式进行迭代开放,解决异构设备多,异构对接繁杂的问题。同时DME平台对发放、运维、保护功能进行融合管理,一次部署,一次登录,多域操作,功能融合,大大降低存储的运维学习成本,提升了运维管理效率。

2)AIOps智能运维的容量、性能提前预测

对于性能预测,通过DME平台定期预测存储控制器、端口、硬盘,交换机端口等对象的性能趋势,并检查未来较长一段时间内是否发生性能瓶颈,告知管理员提前执行硬件扩容、业务均衡或迁移等动作,消除潜在的性能风险。

DME平台会持续学习和监控主机和硬件的性能数据,通过读取较长一段时间的历史性能数据,训练出每个对象的性能趋势模型,并识别业务周期内每个采样点性能值的正常范围区间,使用该历史模型区间,持续监测对象的实时性能数据,如果性能数据较大的偏离正常点范围,则认为性能出现异常点。异常点发生,意味着业务性能受到了较大的影响,潜在原因可能是硬件健康问题、不合理变更问题、扰邻问题、或者是上层业务本身发生的变化,DME平台针对关联对象进行根因分析,寻找最可能原因,并推断可能的风险优化动作或建议,供管理员执行或参考,管理员执行动作即可消除风险,时刻保持系统运行在健康的状态,避免故障的发生。

举个例子吧,存储IOPS的性能异常检测,DME平台每日凌晨生成每个主机历史1个月的性能趋势模型,当天主机业务运行的过程中,平台持续监测业务性能数据是否偏离性能趋势模型的正常范围区间,如果偏离度超过了阈值,则记录偏离点,降低主机的健康分数。当健康分数低于预先设置的阈值时会触发告警,管理员通过告警详情展开关联的主机-存储-交换机端到端拓扑图,可以非常直观的看到问题所在。下图展示了主机IOPS指标的健康度,在过去1天内产生了12个警告级别的异常点,2个紧急级别的异常点,性能趋势图中可以查看偏离正常范围区间的异常点,管理员也可以点击“analyze”进入性能关联分析页面查看IOPS指标的详情和关联对象的性能,进行人工的性能问题定位。

对于容量预测,定期预测存储设备、服务等级、存储池、主机、文件系统等对象的容量趋势,并检查未来较长一段时间内是否发生容量耗尽风险,告知管理员提前执行硬件扩容、业务均衡或迁移等动作,消除潜在的容量风险。

例如,DME平台每日凌晨读取每个存储池历史6个月的容量数据,预测未来180天内的容量利用率趋势,如果发现超出阈值,就会降低存储池的健康度分数。下图展示某存储池容量利用率指标的健康度,在未来30天将发生警告级别的容量风险,在未来90天将发生紧急级别的容量风险,管理员可查看趋势图中,确认风险点的发生时间,提前进行硬件扩容、业务均衡或迁移,消除容量耗尽风险。

2)AIOps智能运维的自动化运维

传统的运维系统问题出现之后才发出告警,对银行高可靠需求的系统来说,更希望做到主动运维,搭建主动预防的能力。通过华为DME平台构成数据中心统一存储运维平台,提前预测容量、性能不足,将手动运维逐渐演化为自动化、智能化,在演进的道路上,华为DME平台将管理全部的存储系统,并逐渐与CMDB等系统完成对接,实现端到端的自动化流程化运维,将存储运维从被动走向主动,从应急走向预防。

3)统一告警管理

DME平台聚合了所有纳入设备的告警管理,支持管理员设置各种规则,对告警进行自动屏蔽、抑制、聚合、关联,自动确认、重定义、标记状态。相关流程如下:

1)     管理员接入存储和交换机,设置告警自动处理规则,按照告警ID、告警源类型、告警级别、事件分类、根因父告警/子告警,对上报的告警进行过滤;根据预先定义的规则对存储或交换机上报告警进行自动处理;根据上报过滤规则,对告警进行过滤,并通过SNMP Trap的方式上报给短信告警管理平台进行通知。

4)设备端到端拓扑&性能关联分析,问题快速定界

DME平台提供了虚拟机-主机-交换机-控制器-存储池-卷端到端拓扑的能力,对于某个存储链路上的故障定位,管理员通过告警详情可以展开关联的端到端拓扑图,可以非常直观的看到是哪个节点出现了问题,下图显示的是主机、虚拟机、存储卷为红色,表示可能出现了问题,管理员可以进一步进入性能关联分析页面查看IOPS指标的详情和关联对象的性能,发现是性能问题,这样就可以将问题快速识别出来。

5)全局搜索,问题一站式定位

DME平台的全局智能运维聚焦信息全连接,通过“全局搜索”关键特点,提供一个引擎式问题搜索的入口,汇聚问题发现、问题分析能力,一站式定位。构建存储知识图谱,打通所有运维资源,全局运维。针对特定LUN链路管理,相比于传统3个目录13个子查询,使用一站式搜索,能一秒呈现,使得运维人员的准入门槛大幅降低。

4、总结

某商业银行数据中心通过全闪存数据中心的打造以及与华为合作的联创,实现了数据存储软硬件层面的巨大提升。硬件层面在极大提升了存储设备性能的前提下实现了数据中心的绿色低碳节能,践行了某商业银行打造绿色银行的责任担当;软件层面通过华为DME平台对存储设备的端到端运维管理,以及统一告警、智能性能监控、统一报表、资产计量等多维度的运维能力,在存储数据管理和智能运维上向前迈出了一大步。在此基础上,将加快银行存储智能运维的落地,推动数据中心的转型升级,为自身的数字化转型扫清障碍。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论1 条评论

a5060963a5060963运维工程师, 民营500强企业
2022-02-09 16:46
感谢作者对DME的分享,现在中国制造太强大了。DME平台目前不仅支持华为集中式存储和分布式存储的纳管,同时还支持DELL EMC,HPE,IBM,HDS,博科,思科等友商存储和交换机的纳管,甚至IBM SVC存储网关也实现了纳管。 对应的介绍也写的非常详细,管理节目有一种耳目一新的感觉。谢谢作者!!!
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

分布式关系型数据库选型优先顺序调查

发表您的选型观点,参与即得50金币。