xuesong
作者xuesong·2021-02-23 14:16
保险行业系统架构师·浪潮商用机器有限公司

某保险公司服务器更新案例(上)-方案设计

字数 4417阅读 5888评论 0赞 2

项目背景

某保险公司 2019 年实现业务与盈利的双增长,主营业务收入同比增长近 17% ,净利润同比增长 27.1% 。业务快速发展的同时,也对其 IT 基础架构提出了更高的要求,而作为支撑保险核心系统的基础架构更是重中之重。目前,其关键核心系统都运行在 Power 小型机上,由于设备陈旧、资源不足,给业务核心的运营带来一定风险。

最近,该保险公司比较迫切的需要解决团险和养老金系统的服务器更新与资源优化,以解决设备陈旧与资源不足的问题。本文将从该案例的小型机现状与挑战、解决问题的思路、不同方案选择的考虑等方面进行概要介绍,希望给有类似挑战的读者有所帮助。

现状与挑战

该保险公司 IT 架构采用两地三中心设计, Power 小型机总共 40 台,支撑了 12 套关键业务数据库,包括团险、养老金、银保、销售管理、资金、单证、主数据管理等。随着时间的推移,目前的小型机运行环境面临如下三个方面挑战:

一是用于支撑核心数据库的设备陈旧,导致故障隐患高、运维成本高。

经过统计, Power 小型机设备主要采购与 2010-2015 年, POWER6&POWER7 的小型机占了约 74% ,其中采购于 2010 年的设备超过半数,目前已运行 10 年。尽管 POWER 小型机具备业界更好的高可靠性特性,目前主体运行稳定,但硬件的老旧意味着潜在故障率的增加,运维风险也相应增加。

如下图 POWER 设备周期的澡盆曲线所示,可以看出设备总体在线周期原则上不超过产品本身 9 年的生命周期,最佳运行控制在 7 年更新周期。

二是部分软硬件已停止服务,无法获得原厂的服务,存在运维风险。

参考下面的 POWER 硬件产品周期策略图, POWER 硬件生命周期一般约 9~10 年左右。目前的 POWER6&POWER7 的服务都已近停止, POWER7+ 也将在今年年底停止服务。

同时,目前环境中运行的 AIX 版本为 AIX 6108 和 AIX 7104 ,按照 IBM 发布的 AIX 版本更新策略, AIX 5.3 & 6.1 已经停止服务,而 AIX 7.1 预计 2022 年停止服务,如是新系统也建议尽快转向 AIX 7.2 。

三是伴随业务的快速发展,部分数据库服务器资源不足,灾备能力略低。

按照该保险公司 2019 年的业务数据,寿险主营业务收入同比增长了近 17% ,未来还会有获客与健康险爆发,预计有较大增长,需要提前统筹 IT 系统资源。

目前生产环境 POWER 小型机的 CPU 利用率平均在 40%~60% 左右,但在开门红或月底结账时期, CPU 利用率峰值明显提高,个别系统达到 75%~100% ,资源配置明显不足;但由于设备老旧,已经运行了 10 年,如上 POWER 硬件产品周期策略图, POWER 在达到 7 年时,已经很难获得原厂的硬件资源的升级配件,这将对未来生产业务造成一定影响。同时,应急中心和灾备中心的处理能力接近为生产的 50% ,相对行业水平来说偏低。

资源优化思路

为节省投资,最大化投资保护,降低实施风险,故采用分批淘汰老旧设备,并结合迭代升级更新的优化策略。一是,目前先淘汰使用时间最长的全部 POWER6 服务器,并迁移其支撑负载到已有的相对较新的 POWER7/7+ 服务器;二是,对于关键核心系统团险和养老金核心数据库,由于其系统的重要性,先从已有的老旧 POWER7 服务器迁移到新购设备,新购设备需考虑至少能够支撑未来三年业务发展。最后,对于新购设备,将从设备满足情况、实施风险、切割时间、投入成本综合比较同构的 POWER 服务器替换,与异构 x86 服务器替换两个方案选项,进行综合决策。

方案设计与选择

如上所述,该保险公司在考虑进行服务器资源优化时,面临是维持 POWER 架构,还是迁移到 x86 架构的方案选择。 IT 部门在进行决策时,从务实的角度,按照性能、可靠性、风险,以及投入成本进行了综合考虑,最终选择了采用更适合其现状的 POWER 同构替换进行资源优化,具体方案概要与决策如下描述。

选择一: POWER 同构替换方案

目前生产环境共 21 台 POWER 服务器,总计 rPerf 性能值为 5294.95 ,目前已经使用 4276.27 。根据以往经验,按照 3 年每年 10% 资源增长,需要达到的 rPerf 值为 5691.71 。

备注: rPerf 为 POWER 官方发布的相对性能值,通常用于跨代服务器或不同型号、不同配置服务器的性能比较,常用于没有条件进行实际 PoC 的前期规划中。

根据上述性能值评估,计划新购 2 台 K1 Power E950 小型机( 32C/512GB ),每台 E950 小型机划分两个分区(如下图所示),将已有 Power 770 上的关键核心系统团险和 Power 750 上的养老金迁移到新购的 K1 Power E950 上;空闲下来的 2 台 Power 770 与 2 台 Power 750 将承接 POWER6 设备上的负载; POWER6 的负载在迁移后,将全部下线退服。

按照上述规划,需要新购 2 台 K1 Power E950 小型机,概要配置如下:

选择二: x86 服务器异构替换方案

按照上述优化思路,需要将已有老旧 POWER7 上的团险和养老金核心迁移到新购 x86 服务器上,然后再把准备退服的 POWER6 上的负载迁移到空闲出来的 POWER7 小型机上。由于整个架构采用的是两地三中心的灾备架构,且采取的是基于存储复制技术的灾备方案,这意味着三中心的服务器需要保持相同的架构。因此,将面临不仅仅是更换单一的生产环境,而是需要更换所有的三个数据中心。生产中心采用 Oracle RAC 集群部署,每套系统需要部署 2 台服务器;应急和灾备各需要 1 台服务器,因此,每套系统需要 4 台 x86 服务器,目前计划迁移的团险和养老金两套系统总共则需新购 8 台 x86 服务器。

由于是生产核心数据库,且负载较重,因此,更倾向采用物理机方式部署核心数据库,以获得更换的性能与可靠性,而没有采用 VMware/KVM 虚拟化环境整合。根据以往的经验, POWER 服务器单插槽的性能大约是 x86 服务器单插槽的 2~4 倍,也就是每套系统最低也需要 4 插槽的 x86 服务器。同时,目前存储空间不足以支撑生产切割,还需额外新购 2 套存储,以保障异构服务器替换的生产切割需要。另外,由于硬件与系统软件都将发生变更,验证项远远比同构替换要多和更复杂,异构实施复杂度与风险更高。

方案比较与决策

1.从性能上考虑, POWER同构方案更有保障。

K1 Power E950 服务器单台配置 32 个 POWER9 核心,每核心多达 8 个线程,即单台服务器可以达到 256 个线程,单核线程数是 x86 的 4 倍。单台最大支持高达 16TB 内存,相对 x86 ,每 CPU 插槽提供了 1.8 倍的内存带宽。

按照以往的测试与实际运行经验,在不同的运行负载下、不同高低配置的情况下,对等配置的 POWER 服务器的性能大约是 x86 服务器的 2~4 倍。由于本次项目时间关系,不能额外进行 PoC 测试,仅仅按照最低的 2 倍的比例配置了 4 路 x86 服务器,实际生产性能并没有得到保证。

而 POWER 仅仅是跨代的同构替换,参考官方 rPerf 相对性能值比较,有一定的理论基础,且也在过往迭代更新中经过实际生产的验证。另外,团险和养老金通过动态分区的部署方式进行整合,可以利用 DLPAR 动态调整资源的特性,在生产过程中根据业务实际的运行情况,对两个分区的 CPU 、内存等资源进行动态调整,以应对突发的资源需求,保障可能的峰值性能要求。因此,但从上线实际生产的性能保障上,选择 POWER 同构替换更有保障。

2.从可靠性上考虑, K1 Power比 x86具备更好的安全可靠性。

服务器的安全可靠性体现在软硬件两个方面,在这两个方面, UNIX 小型机具备天然的优势,这也是 UNIX 服务器成为企业级服务器选择的主要原因。

UNIX 服务器通常是一家厂商从硬件、微码、虚拟化、操作系统,及其配套软件统一设计、优化、测试与发布,经过完整性的适配性测试,具备更加稳定可靠的特性;而 x86 服务器的设计、优化、测试与发布则涉及到多家厂商,主板、 CPU 、微码、虚拟化、操作系统均来源不同的厂商,尽管标准化是其优势,但多家厂商无法融合和更好的配合完成统一的交付验证,这也是我们看到市场上的 x86 服务器质量参差不齐的原因。

K1 Power 在保持 Power 架构小型机的稳定、可靠特性的同时,由国内厂商自主掌握关键技术 IP ,本地生产制造,兼容 IBM Power 应用生态系统。 K1 Power 系统 RAS 特性与 x86 服务器相比有明显的优势,具体参考如下:

3.从风险控制上考虑, POWER同构方案的风险显然更低。

POWER 同构替换能平滑的迁移负载,无论是实施风险,还是实施的时间窗口、投入的人力,以及上线前的验证,相对 x86 方案来说, POWER 同构替换方案的风险都更低。具体在比较时,对于 x86 方案的顾虑,我们主要考虑了以下三个方面:

1)采用 x86需复杂的测试与验证。

按照公司的设备变更流程,任何设备的更新都需要经过测试验证再上线运行,复杂项目或变更较大的情况下,更需要试运行一周,以保障上线后业务的稳定。如采用 x86 进行替换,由于硬件与系统都将变更,按照验证流程,需做功能和性能测试,验证项更复杂,测试时间也更长。一般情况下,这种变更,都需要由应用开发团队牵头发起测试验证,评估其可行性。

2)采用 x86实施的复杂性与风险更高。

由于涉及到三中心 HA&DR 部署,每套系统需要新购 4 台服务器。因此,实施需要跨多个数据中心,且需要额外的存储支撑测试与生产切割,还需涉及到额外的数据导入导出,相对 POWER 来说,其实施的复杂度与风险都更高,这种情况下,通常都是由应用开发团队牵头,配合在新核心系统重构时才进行。

3)采用 x86生产切割对业务影响更大。

按照该保险公司以往的经验,采取 POWER 同构替换,上线前只需简单的进行功能验证与性能比较验证(老旧设备之间),这通常在 1 天或几天就完成。而在真正的生产切割时,由于是同构替换,在同一数据中心对接已有环境存储即可,生产切割窗口约 1~2 小时完成。但采取 x86 ,包括测试与试运行,生产完成切割约 2 个月左右的时间,对业务的影响太大。

综述,按照性能、可靠性、风险,以及投入成本进行了多方面考虑,最终选择了采用更适合的 POWER 同构替换进行资源优化。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广