cpc1989
作者cpc19892020-10-16 14:08
存储工程师, 某保险公司

某保险公司核心系统基于浪潮K1 Power E950的升级及迁移实践经验分享

字数 7922阅读 3269评论 5赞 11

【摘要】 本文主要分享了某中小保险公司核心系统基于浪潮 K1 Power E950 小型机升级及迁移的实践过程。从项目背景、现状分析以及项目建设目标开始,引出服务器选型等方面的内容,介绍了浪潮 K1 Power E950 小型机相关的技术和使用经验,并分享了测试方案以及升级迁移的过程,最后总结了项目实施的难点和效果收益,希望给同行在类似项目中提供一些借鉴和参考。

【作者】 cpc ( twt 社区 ID ),现就职某保险公司,在银行、保险行业从事 IT 工作多年,熟悉多种品牌的服务器及存储设备,熟悉数据备份技术,具有丰富的小型机及存储系统的管理规划经验。个人对小型机架构、 AIX 、 Linux 、虚拟化技术、数据备份技术以及各种数据存储技术都做了较深入的学习和思考,在社区分享了《 VPLEX 运维及异构存储双活使用实例技术手册》、《 Power Enterprise Pool 结合 PowerHA 的高可用技术实践》等多篇文章。

1.引言

1.1 项目背景

为进一步贯彻执行银保监会下发的《保险业信息系统灾难恢复管理指引》和《保险公司信息化工作管理指引(试行)》两个监管文件精神,推进公司数字化战略转型的目标,我司从2019年下半年开始启动新数据中心建设项目,并在现有数据级灾备的基础上,进一步推进关键业务系统的灾备建设。

新数据中心建设项目包括了网络、系统、数据库以及应用等多个层面的建设内容,涉及到现有数据中心几乎所有的业务系统。根据公司IT战略规划的指引,新数据中心建设项目将根据业务种类和项目进度,分期分批次迁移和完成灾备建设,其中核心相关业务系统被列入第一批次迁移和灾备建设计划的系统。而在本文的项目中,主要实施的就是核心业务系统的升级及迁移工作。

1.2 核心系统现状分析

作为中小寿险公司来说,寿险核心和财务是最关键的两个业务系统。其中,我司核心系统承载了包括柜台业务系统、材料录入系统、核保系统、核赔系统、查询统计系统、报表制作系统等模块的功能。该系统需要满足同时在线人数达到千人,其业务占比构成以数据查询为主,但业务种类多样,如图1所示:

图 1. 核心系统业务占比构成

而我司核心业务系统数据库已运行 9 年之久,硬件架构采用两台 P750 小型机搭建的 Oracle10g RAC 集群。随着公司业务的拓展,数据库核心表数据量增长较快,业务单表过大,加之原有两台 P750 小型机硬件架构出现性能瓶颈,特别是在保险业“开门红”这样的业务高峰期,不可避免地会出现大量 IO 竞争、业务查询效率低下的情况。

1.3 项目建设目标

基于公司数字化战略的项目背景以及核心系统现状,本项目聚焦于核心系统数据库服务器的升级及迁移,主要需要满足以下的四点需求:

  • 核心系统数据库服务器硬件出现性能瓶颈,需要硬件升级以满足公司中长期的业务发展需求;

  • 核心数据库需要整体迁移到新的服务器架构,新架构需要较高的稳定性,迁移过程要求相对平滑,以保证业务系统的连续性;

  • 现有操作系统和数据库版本都较低,需要版本升级以满足服务的质量要求;

  • 核心系统的灾备建设需求。

为满足上述需求,结合新数据中心的建设背景,本项目最终确定了两点建设目标:

  • 在新数据中心部署两台高性能服务器,采用版本更高、更成熟稳定的操作系统和数据库版本,用于迁移现有数据中心的核心数据库;

  • 迁移完成后,将原数据中心作为灾备中心,并搭建核心数据库ADG,用于核心数据库的灾备数据同步。

2. 选型分析及使用经验分享

2.1 服务器选型分析

2.1.1 服务器选型关键因素

新服务器选型采用浪潮K1 Power E950小型机,主要基于以下的关键因素:

  • 原有核心数据库采用Power小型机+Oracle数据库的组合,迁移过程会相对平滑;

  • 无论从业界评价,还是结合自身使用经历来看, Power服务器相比于X86服务器,在RAS(Reliability、Availability、Serviceability)方面优势明显。

  • Power9架构的处理器拥有更强大的处理能力,更高的IO带宽,能满足关键业务性能纵向扩展的需求。

  • 目前浪潮K1 Power系列服务器包括E980、E950、S924等型号,其中E950的定位是中型服务器产品,面向企业AIX和Linux核心应用。

2.1.2 服务器资源配置

原核心系统两台P750小型机是两路处理器16C128GB的配置,CPU主频为3GHz。在本项目中两台新的浪潮K1 Power E950小型机配置也计划采用两路CPU激活,还需要满足CPU核数、CPU主频、整体处理能力以及内存都得到提升的需求。

CPU核数及主频:

根据官方资料,浪潮K1 Power E950支持三种规格处理器核心(均支持SMT8模式),即8、10、11核心。随着核数增加,处理器主频范围变大,实际运行的最高频率会降低。

内存:

内存作为数据库的缓存池,可以提高数据库的执行效率,缩短响应时间。增加服务器的内存,也是提高数据库性能的关键手段之一。原P750每处理器带8个DIMM槽位,槽位上配置了8GB内存条,内存一共为2*8*8=128GB。

而新的浪潮K1 Power E950有以下几个特点:

  • 内存带宽高,最大230GB/s内存带宽

  • 内存最高支持16TB,扩展性较强

  • 支持8个内存扩展卡,每卡16个DIMM槽位

  • 支持8,16,32,64,128GB DDR4 DIMM

性能评估:

rPerf(Relative performance)是一个综合性能基准指标,每种机型配置的rPerf取值主要是基于几种典型OLTP负载综合评估而来,也兼顾了CPU运算性负载。不同型号的小型机可以参考rPerf值来做性能评估,如表1所示:

表1.不同CPU配置下的性能对比(rPerf)

由上表可以看出,同样是两路 CPU 配置情况下,浪潮 K1 Power E950 相比原 P750 的 rPerf 值均有较大提升;另外一点是, SMT8 模式相比于 SMT4 模式性能也提升明显。

综合性价比等因素,最终我们选择了 10 核的 CPU ,即两路 20C 的 CPU 配置,内存则配置了 1TB 空间( 2*16*32GB ),整体预估可以提升近 3 倍的性能。当然,实际的性能表现如何还需要在特定的业务场景下去验证。

2.2 硬件方面的实践经验

2.2.1 硬件架构视图


图 2. 浪潮 K1 Power E950 整体硬件架构视图

如图 2 所示,为浪潮 K1 Power E950 整体硬件架构视图,其主要有以下几个特点:

  • 其内置磁盘集成在服务器的前面板,支持 8 块 SAS 接口 HDD 或 SSD ,也支持 4 块 NVMe 接口 SSD ;
  • 服务器没有光驱和串口,但提供了 USB 接口,可以通过 USB 口安装系统;
  • 服务器安装方面 , 相对来说,服务器的深度较高,达到 902 mm ,而 E850 深度只有 776mm ;
  • 浪潮 K1 Power E950 自带了 PDU 套件和三相航空插头, PDU 需要横向安装到机柜,三相航空插头接电 380V 。

2.2.2 CPU主频及工作模式

在Power9的系统中,通过prtconf等命令查看到的CPU主频,称为标称主频或常规主频,如图3所示, 可以看出标称主频只有3000MHz,低于官方文档中3.4-3.8GHz的频率范围。


图 3. 浪潮 K1 Power E950 标称主频

其实,标称主频一般是要低的,实际运行主频可以通过 lparstat – E 命令来查看,如图 4 所示,可以看到实际主频为 3.6GHz ,高于标称主频 121% 。


图 4. 浪潮 K1 Power E950 实际运行主频

出现这样现象的原因是,浪潮 K1 Power E950 默认启用了 CPU 空闲节电( idle power saver,IPS )功能以及 CPU 动态省电模式。 POWER9 CPU 提供了两种新的动态省电模式:动态性能模式( DPM )和最大性能模式( MPM ,浪潮 K1 Power E950 默认启用 MPM 模式),如图 5 所示,可以在 ASMI 中设置 CPU 运行模式:


图 5.CPU 运行模式设置

这两种模式下,在系统空闲且达到预配置的空闲条件时, CPU 主频都会降低到节电频率。但不同之处在于, DPM 模式下的 CPU 主频会在 DPM 频率范围上限下运行,避免超过处理器模块的标称功耗限制;而 MPM 模式下, CPU 可以超过处理器模块的标称功耗限制,运行在更高的功耗水平下。简单来说, DPM 模式更利于降低功耗,性能稳定;而 MPM 模式下, CPU 主频可以更高,但会由于环境等因素(主要是散热限制),性能表现会出现差异。

2.3 HMC增强界面及使用经验

Power9 给 HMC 也带来了一些较大的变化,值得去研究一下的,主要表现在两方面:

  • 传统 X86 架构的 HMC 逐渐被淘汰,只能选用 Power 架构的 HMC ( 7063-CR1 ),当然也支持虚拟机 vHMC 的方式来管理;
  • 在 HMC V8.7 版本之后,不再支持经典版本 GUI 登录,而是 HMC 增强界面,也带有部分新功能。

下面也将简单展示下新 HMC 增强界面及其使用经验。

如图 6 所示,首先是登录界面的变化, UI 有优化,更注重于展示效果。原有的功能基本都得以保留,但新增了部分功能。


图 6. 新 HMC 登录界面


图 7. 新 HMC 分区展示界面

从图 7 也可以看出也使用了一个 HMC 的新功能,通过启用 HMC 的性能数据收集功能,可以将当前的服务器或分区的 CPU 、内存等使用情况直接展示出来。另外还可以在 HMC 中查看性能指标的历史趋势,如图 8 所示:


图 8. 新 HMC 中性能指标的历史趋势图

除了数据采集和展示外,还有一个亮点的新功能是模板和操作系统镜像功能,可以通过预定义的模板迅速部署分区系统,如图 9 所示:


图 9. 新 HMC 模板功能图

2.4 操作系统版本选择思路

对于浪潮K1 Power E950来说,其硬件架构对AIX版本也有要求,不再支持低版本的AIX系统,主要支持AIX 6.1TL9、AIX 7.1TL5、AIX 7.2TL1及之后的版本。

在操作系统AIX版本的选择思路和参考依据,主要如下:

  • 首先是参考原系统的版本,但是原系统P750上的AIX版本是6.1.0.4,按照这个方式可以考虑选择AIX 6.1TL9,而不升级AIX大版本,这样版本升级的跨度比较小,升级难度要小一些;

  • 其次是参考AIX系统版本特性及差异,这边主要是AIX 6与AIX 7版本的差异。其中AIX 6 CPU是运行在P7模式下,P7模式只支持SMT4,不支持SMT8。而根据IBM官方给出的两种模式下的rPerf值的对比,可以推断出SMT8的CPU并发多线程模式要比SMT4性能提升近20%,综合前两点来看,升级AIX 7版本的收益要更大;

  • 然后是参考AIX系统EOS时间表,如图10所示,可以看出在目前的时间节点上,选择AIX 7.2 TL3及其之后的版本会更有利于获得厂商的技术支持。另外一点是,AIX 7.2 TL4这个版本相对比较新,成熟度可能存在欠缺,所以选择AIX 7.2 TL3会更合适;


图 10. AIX 系统 EOS 时间表

  • 最后是小版本的确认,更多地是考虑小版本上的一些已知缺陷或 BUG ,所以最终我们选择了 AIX 7200-03-03 版本。

2.5数据库版本确定

原核心系统数据库是 Oracle 10g ,这个版本相对比较老,很多功能并不支持,比如不支持 ASM+RAC 的方式,比如不能开启 ADG 功能等等,所以数据库版本升级的需求也比较强。如图 11 所示, POWER9 处理器架构之下,结合 AIX 7.2 的操作系统版本, Oracle 11g 和 12C 都是官方认证的,考虑到 11g 版本更广泛的实用度,最终确定了 oracle 11gr2 版本。

图 11.Oracle 与 AIX 相关版本官方认证表

3.核心系统数据库升级及迁移方案设计及实施

3.1 项目计划及方案

本次项目是在新数据中心建设的基础上,对原有核心系统的整体替换。但考虑到不仅仅是硬件的升级,还涉及到了操作系统以及数据库版本的升级,项目整体具有一定的风险性,需要制定详尽的迁移计划。

项目整体的步骤计划如图12所示,分为基础环境准备、测试、正式迁移以及灾备ADG搭建四个大步骤。其中测试步骤非常关键,也花费时间最长;在正式迁移步骤中,则主要关注两点内容:数据迁移方案和验证方案。

图 12. 项目步骤计划

数据迁移方案设计

Oracle 数据库的数据迁移方案通常可以通过数据库复制技术 DataGuard 的切换方案或者存储层面改变磁盘映射的方式来实现。但是本项目中涉及到了数据库版本的升级, DataGuard 的数据库复制和切换方案存在风险,并不建议采用(同样的道理, RMAN 备份恢复方式也需要排除);跨数据中心存储异构也并不具备实施存储层面改变磁盘映射方案的条件。在本项目中,只能选择采用了数据泵 (expdp/impdp) 来迁移数据。

非结构化数据的迁移则是采用 NDMP 方式的备份恢复先做一轮完全恢复,后续的增量同步则推荐采用 rsync 等操作系统层面的数据同步工具。

验证方案设计

验证环节主要包括连通性验证、数据完整性验证以及业务验证等。连通性验证主要验证的是应用和数据库的正确配置是否正确;数据完整性方案中需要考虑去对比源端和目标端所有对象类型、对象数量、大小、内容等等;有条件的情况下,协调业务人员做好业务验证也很关键。

3.2测试方案的设计和实施

由于涉及到操作系统和数据库版本升级,本次迁移项目需要做好充分的测试工作,才能启动整体迁移工作。按照测试的目标和主体不同,本次测试工作分为主机性能测试、业务压测以及切换测试三项内容。

主机性能测试

主机性能方面分别通过 vdbench 和 Orion 这两种工具进行主机性能测试。其中 Orion 是模拟数据库的各种 IO 压力的工具,而 vdbench 则主要是模拟磁盘 IO 负载。由于 Oracle 采用 ASM 方式管理磁盘,主要测的还是裸盘读写测试场景。

该测试更多偏向于存储 IO 性能表现,但主机上通过 vmstat 命令也可以看出主机 CPU 性能表现。如图 13 所示,磁盘读写达到 IOPS 峰值阶段,主机的 CPU 性能表现依然很好,可以继续增加磁盘 IO 并发压力。

图 13. 存储读写性能测试中 E950 的 CPU 使用情况

另外,如表 2 所示,在提高读写 IO 大小的情况下,可以看到读写带宽不断增加,接近峰值,整体响应时间逐渐增大,但依然保持较好。

表 2. 五块裸盘随机读写测试 IO 大小( 4K-512K )( 80% 读)

业务压测

业务压测主要目标是两点:一是新数据中心部署的应用功能性测试,二是压力测试场景下,业务系统间调用是否能保持正常。为保证业务压测的准确性,业务压测也分为两条路线同时进行,一是应用系统调用接口模拟测试,二是各业务部门参与的业务模拟测试。

切换测试

在正式迁移切换之前,为验证正式迁移切换的步骤,合理估算停机时间,还需要做一次切换测试。切换测试涉及到业务系统启停测试、切换迁移步骤测试、数据传输测试、数据完整性验证以及系统验证测试等步骤,确保正式迁移切换的成功率。

3.3 最终的系统架构

核心数据库迁移到新数据中心之后,再利旧原核心系统迁移后的P750,重新安装操作系统和数据库,这样就在原数据中心搭建核心数据库的ADG。新的核心系统架构为双中心部署架构,整体架构图如图14所示。

图 14. 核心系统双中心架构图

4.核心系统升级及迁移项目总结

4.1项目实施难点分析

  • 技术选型

核心系统数据库服务器的技术选型是本项目的重点之一,涉及到了服务器硬件选型、操作系统以及数据库的选型以及版本确定,既需要将现有核心系统整体平稳迁移到新数据中心,又要考虑到软硬件的升级以支撑公司中长期的业务发展需求,还要兼顾到核心系统的灾备建设。技术选型过程中,除了 Power 硬件架构以外,还有 X86 架构的硬件方案,包括 Oracle 一体机方案等选项。但是相比于 X86 架构,浪潮 K1 Power 小型机在安全性、稳定性以及性能等方面更有优势,也更贴合核心系统原有架构,升级和迁移过程更加平滑。

  • 版本升级过程的调优

在本项目中,数据库和操作系统都涉及到了大版本的升级,相比于单纯的硬件迁移项目,增加了项目风险,也带来了很多技术难点。版本升级过程中涉及的调优包括:数据库版本升级可能会导致部分 SQL 性能下降,需要对 SQL 进行分析优化; Oracle 升级到 11g 后,选择通过 ASM 方式管理磁盘,而不用再依赖 HACMP+LVM 的管理方式; Power9 服务器更推荐使用 SMT8 的 CPU 并发多线程模式;浪潮 K1 Power E950 机器时间有误差,一个月时间走快了 10 多秒,需要配置NTP时钟同步等解决。

  • 数据验证的难点

在核心系统迁移过程中,最大的风险还是数据风险。在核心系统切换迁移到新数据中心后,除了业务连通性验证外,还需要数据完整性验证,分别需要检查数据库以及其他非结构化数据存储。数据库的数据完整性通过比对数据表、视图、索引以及权限等等对象;非结构化数据存储则比较文件 inode 数、部分文件内容的验证等等方式。在数据验证通过后,才能放开业务对外接口,做进一步的业务验证。

4.2项目效果及收益

  • 核心系统升级后,业务提速明显

在方案设计过程中,根据 rPerf 值预估硬件升级预估能提升近 3 倍的性能。如图 15 和图 16 所示,分别为 nmon 记录的核心系统升级迁移前后正常工作日的运行情况(蓝色线条为 CPU 使用率,粉色线条为 IOPS )。可以看出,迁移前 P750 上运行时, CPU 平均使用率为 22.8% ,峰值为 44.2% ;而迁移到浪潮 K1 Power E950 上, CPU 平均使用率为 6.6% ,峰值为 16.8% ,其性能数据符合方案设计的预期。

在核心系统数据库从 P750 升级迁移到浪潮 K1 Power E950 后,解决了系统负载高、响应慢的痛点,业务处理速度也明显加快。


图 15. P750 正常工作日的运行情况


图 16. E950 正常工作日的运行情况

  • 系统平稳运行,业务连续性得到保障

本次项目采用了相比于 X86 架构更加稳定可靠的浪潮 K1 Power 小型机架构,同时配合更先进性能更强的 Power9 技术,浪潮 K1 Power+Oracle RAC 的本地架构保障了核心业务系统的稳定运行。在核心系统整体迁移切换到新数据中心后,又依托于原有的 Power 服务器,着手于核心系统的灾备建设。核心系统的双数据中心架构既满足了监管部门对于保险机构信息系统的监管要求,也满足了公司经营管理对于业务连续性的需求。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

11

添加新评论5 条评论

匿名用户
2020-11-13 13:55
写的不错,值得借鉴
#lisunwei系统运维工程师, 华安财产保险股份有限公司
2020-11-02 17:36
写得很详实,也很专业!读完后,完全感受到作者的用心……
#huijx系统架构师, 华泰保险
2020-10-22 09:35
从选型到测试到安装部署,方案做的非常优秀!浪潮 K1 Power 小型机在核心数据库方面真不错!
#董志卫系统架构师, 李宁(中国)体育用品有限公司
2020-10-21 17:24
K1 Power 一如既往的稳定性是选择小型机的保障,K1-Power以及power9强劲的扩展能力和性能保证并结和Oracle Rac的高可用架构保证了整体数据库解决方案的高效的性能,整体的高可用。 Aix 是一个优秀的系统,同时此方案避免了不同平台(小型机到X86)的ORacle 字节码等一系列问题。延续以往的运维经验,没有增加再学习的成本。值得借鉴。
#李松青软件架构设计师, 浪潮商用机器企业云创新中心
2020-10-19 15:45
保险企业买Power跑核心就是给自己上保险,赞!
Ctrl+Enter 发表

核心数据库服务器选型优先顺序调查

发表您的选型观点,参与即得50金币。