slz109
作者slz1092019-06-11 18:07
存储架构师, scbank

某银行核心数据库平台POWER升级经验

字数 2823阅读 3501评论 3赞 12

【作者简介】
宋熙诺,某银行IT运维部,运维工程师,从事运维工作8年,目前主要负责数据中心服务器,小型机,存储等设备运维工作


摘要

金融行业对系统业务连续性有着很高要求,特别是核心系统,在硬件环境达到规定使用年限后,为保证业务系统运行稳定,必须提供有效的硬件平台更换升级方案,该方案既要保证新老平台见不存在兼容性问题,可以无缝平滑迁移,还要保证硬件性能满足未来的使用需求,本文将从某银行POWER平台的更换升级方案入手,分析在改造升级过程中的注意要点。

1.项目背景

某银行于2014年上线其核心系统,如今其核心数据库设备面临超期服,由于核心数据关键,同时硬件设备更新换代频繁,一方面要兼顾设备的稳定性等指标,同时要在成本控制的基准下,更换为满足未来3-5年业务需求的硬件设备。

2.某银行现状

某银行核心数据库由2台Power小型机组成,具体配置如下:
lndo7kok8u9

主机负载情况:

数据库服务器负载情况:目前某银行日间高峰期、夜间批量时刻核心主机CPU使用率在48%左右,经过第三方监控报表分析得出最近一年核心数据库主机CPU使用率最高为70%,负载较高;主机内存根据数据库分析报告实际负载较高。主机整体负载较高。
下面是3月17日采集的资源使用情况:于2019年3月17日上午10点-11点及晚上22:30-23:30,分2个时间段收取了各个系统运行的情况。如下数据分别为各个系统在日间和夜间CPU的峰值使用情况,以及峰值出现的时间点:
omrk12rp0lm

业务量情况统计

当前业务系统业务量统计,日交易量的80%在两小时内完成。
0w4a4fh0boyd

3.设备更换思维导图

针对此次核心设备升级,某银行协调POWER小型机原厂商、核心系统开发厂商、设备评估公司多方就此次平台升级进行交流讨论。整体项目思维导图如下:
5nu0fz8d2bb

4.平台升级评估过程

4.1 核心系统软件开发厂商

结合以上某银行主机负载和业务量统计情况,该厂商结合2014年对该系统进行的性能测试报告,参考1000万-2000万级账户同等规模的城商行及最近上线项目的硬件配置,类似新建或升级项目中,数据库多使用E850型号。所以综合某银行现状和未来规划,认为Power E850符合满足某银行配置需求,配置要求如下:
559f05z0zh6
软件开发厂商注:E850处理器频率可达4GHz,较750有较高提升,且支持每内核多达八线程的同步多线程(SMT8)功能较750四线程同步有较大提升,850每个双芯片模块拥有的片上内存控制器,可利用多达128GB的片外四级内存,提供每插槽192Gb/秒的内存带宽。大幅提高了I/O带宽。较750综合性能提升70%以上.

4.2 硬件原厂商建议

该厂商认为目前Power9平台为主流产品,性能较现有的 Power750系列提升2倍以上,较POWER8小型机提升60%,同时Power8产品为2014年推出的产品,相同配置下推荐使用Power9平台小型机,但不提供针对某银行的具体配置建议。

4.3 评估厂商建议

4.3.1性能推断:

1)当前收集到的小型机性能数据日期为月中(3月17号收集),为了满足季终和年终业务的峰值,参考行业的经验值,假设业务最高峰值为当前的150%
2)假设目标系统性能需满足至少5年的业务负载能力
3)假设业务量及处理能力需求以每年20%的比例递增
4)假设5年后的业务复杂度相对当前提高10%
5)假设目标服务器5年后的CPU使用率合理值为65%
6)为了保证突发的业务需求增长,目标系统保证在足够的扩展能力
7)当前的内存使用未发现瓶颈,假设5年后的内存使用需求为256GB

4.3.2性能推算依据

rperf值是POWER服务器的相对性能基准指标,可以衡量出不同型号、不同配置的服务器的性能表现情况。本次性能推算采用rperf值为基准依据。
Power750 B model 24 核 3.2 GHz的rperf值为235.39
8核 3.2GHz的rperf值为85.29
2)当前运行业务的rperf值为(取日间和夜间之高,按服务器整体性能线性推算),核心业务数据库两台小型机的rperf值分别为70.2和46.3,可见两个节点虽然是负载均衡(Oracle RAC),但实际处理中A机性能要优于B机,这与Oracle的处理机制以及业务逻辑有关。

4.3.3性能推算过程

采用两台相同配置的服务器,故采取目前压力较大的核心数据库A为参考基准进行计算,目标核心数据库服务器所需性能值为
70.2(1+50%)(1+20%)(1+20%)(1+20%)(1+20%)(1+20%)*(1+10%)/65%=443.4。

4.3.4机型推荐

在设备选型上,该银行始终保持着几点要求:
(1) 平台不能有较大升级,从而带来运维或者业务处理上的改变;
(2) 平台必须属于中生代产品,产品技术不过时,且推向市场至少3年以上。
结合以上2点要求,基于前期我们对现有核心平台设备的性能推算,虽然Oracle数据库对平台没有要求,但从银行稳定性角度出发,我们认为应继续选择Power平台小型机。
该银行核心系统之前一直使用Power平台小型机,多年来运行稳定,没有出现过任何异常宕机等事故,该银行科技人员对Power小型机的稳定性也是持认同态度。
因此,该银行直接确认了Power8平台小型机,不考虑去年新推出的POWER9小型机,虽然后者在性能上较前者有了很大提升,特别是在CPU处理速度,IO带宽上,但对于该银行业务规模来说,性能的提升均属于边际效应,还要考虑跨代更换带来的潜在风险。
从前期对该银行业务处理性能的整体分析,Cpu处理速度基本满足当下处理要求,无法满足3年后性能需求;IO处理速度峰值在500M/s,且均为共享存储数据,HBA卡为16GB/s,完全满足需求,考虑到该银行核心网络没有万兆交换机,所以在网卡上继续使用千兆电口;内存上,通过收集Oracle AWR报告分析,目前容量满足需求,但仍然建议在内存容量上翻倍扩充;本地硬盘上,处于稳定性要求,该银行不建议使用SSD固态或者闪存盘,继续维持原普通SAS硬盘,我们认为在性能基本满足要求。综上此次核心数据库设备配置建议如下:
fpl2tw3jcle
该配置rperf值为465.1>443.4,满足未来五年的业务处理需求

5.关于小型机选型的思考

某银行在核心数据库设备的选型过程中,作为一个项目,首先应考虑成本和风险2个方面。
在设备选型成本上应以原设备采购成本为基准,新设备选型在满足使用需求的前提下,尽量控制成本。 Power平台小型机各产品价格跨度大,性能差异大,因此要详细确认好新设备配置需求。
风险角度上,核心系统是银行最根本的系统,一旦出现问题,后果不堪设想,前期风险控制是十分重要的。目前设备配置更新换代快,一味选用最高配最高端的设备,将不可避免的带来运行风险。该银行积极协调核心系统开发厂商、安全评估厂商,采用德尔菲法,参考对比其他同等规模的城商行配置,前后进行多次评估讨论。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

12

添加新评论3 条评论

#Switcher数据库管理员, XX银行
2019-06-19 17:13
有几个困惑不知可否解答一下: 日均业务量37W,在银行业中算是比较小的业务量了,而贵行的小机CPU使用率,尤其是数据库的CPU使用率在50%以上,说明数据库很繁忙了,如果不存在SQL差导致的执行计划问题的话,这么繁忙的Oracle数据库,数据量应该已经非常大了,作为核心账务系统数据量大,较大的可能是历史数据和各类数据都在一起。不知道你们有考虑过将历史数据移走,以及将非重要账务类数据分离吗?

Switcher@slz109 业务逻辑通过存储过程实现.......还有这种操作,,

2019-06-19 22:30

slz109@Switcher 1. 该行业务逻辑均通过数据库存储过程实现,所以业务压力均体验在数据库压力上,数据库服务器压力很大,历史数据已经每年进行了迁移处理,非重要账务目前还没有数据分离

2019-06-19 18:27
#15305419779zxy网络工程师, 山东大正公司
2019-06-19 14:29
从背景、现状、思维导图、升级评估过程做了详细的介绍和总结,值得学习和借鉴。
#15305419779zxy网络工程师, 山东大正公司
2019-06-14 18:56
结合案例,详细介绍从业务内容、设备、升级、评估、选型等方面,值得学习
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
© 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30