duanh02
作者duanh02·2019-12-25 15:01
系统工程师·某保险

超融合在保险行业生产环境的应用探索与实践

字数 3660阅读 11899评论 8赞 21

摘要:
泰康自 2017 年跟进超融合技术,在其稳定性和可靠性上积累了一些生产运维经验和心得体会。本文通过对超融合技术的调研分析和应用实践梳理, 希望 为保险行业对超融合选型和场景应用提供一些观点和思考。

一、引入超融合技术背景及原因分析

泰康作为业内大型保险集团公司和金融科技领先者,在多年前即开始了新一代 IT 基础架构的评估和探索。其原因一方面来自于集团业务数字化、互联网化转型对 IT 基础架构的敏捷性、易维护性和总拥有成本提出了更高的要求,例如快速增长的互联网资源池,以及大量的开发测试需求;另一方面,传统的 SAN 存储架构也在这样的需求压力下暴露出诸多弊端:

1 )资源交付效率低,周期长。不能满足业务快速敏捷交付的要求;
2 )不能通过横向扩展来增加性能;
3 )各品牌设备差异较大,软硬件紧耦合,管理接口不统一,增加运维难度;
4 )灾备场景下,存储异构难度较大;
5 ) TCO 整体成本较高。

针对公司的需求和新型 IT 技术发展, IT 部门一直在不断探索将小型机、传统存储等基于专用硬件、开放性敏捷性比较差的传统架构向基于 x86 服务器结合虚拟化和分布式存储,甚至容器和云管的新一代软件定义数据中心演进。 2014 年将 Hadoop 平台运行在本地虚拟化平台上, 5 年来该平台运行稳定,并未出现性能相关问题。 2017 年了解到超融合灵活扩展、开箱即用的特点,其优势有效规避了传统 SAN 存储的某些弊端,但是超融合不稳定和不可靠的声音也不绝于耳。但是通过 分析保险应用特点,传统大型应用经历了 U2L 的历程,以及微服务化和容器化,单机的高负载已逐步被弱化,同时搭配其他保障业务连续性的软件(如 Zerto 、 V eeam ),核心生产跑到超融合产品上,已不是多么可怕的一件事情。

传统的保险公司也都在业务形态上悄然发生着转型,泰康已不只是“保险 + 服务 ”的商业模式,正在用“保险 + 科技 ”打造科技型、服务型的新型互联网保险公司,利用科技驱动业务。互联网保险应用已成为新一代年轻人的首选。互联网应用灵活多变的特性,以及保险行业常有的业务节点,如开门红等,对开发和上线的速度,以及资源交付的时效,如何用最短的时间搭建一套可靠稳健的基础平台成为了关键,以及对投入产出比的分析,所以在认真评估后,泰康在 2018 年就开始在互联网核心生产环境中引入超融合架构,目前系统已经经过了两年的稳定运行,其架构优势也在内部得到发挥。

二、超融合在保险生产环境可行性调研和方案选择

因为超融合本身没有延续传统的计算、存储、网络,所以很多 IT 人对这种架构有诸多疑问和顾虑,市场上概念也比较混乱,这里介绍一些我们调研和评估的心得。

1 、分布式存储是超融合架构最核心的价值的体现,也是变化最大的部分,因此也是评估该架构性能和可靠性的关键。

超融合架构的名字可能掩饰了存储的重要性,导致一些用户不知道评估的重点,但通过对比传统架构我们能看出来,如果虚拟化继续使用 VMware ,真正的变化就是用 x86 服务器加分布式存储软件代替了传统的存储,而做 IT 的人都知道存储对于整个 IT 基础架构可靠性和性能的重要性,所以软件定义存储作为超融合架构的最核心的价值体现和关键指标,也应该作为架构评估和产品评估的重点。另外,因为虚拟化本身已经在企业内非常普遍和成熟,所以超融合架构很多优势也都是由分布式存储带来的。

关于底层存储,一些关键指标需要重点关注,
1 ) 路径优化,支持数据访问路径优化
2 ) 数据分层,软件自动将经常访问的热点数据放在 SSD 磁盘上,而将不常用的数据放在 HDD 磁盘上
3 ) 数据快照,存储底层具有数据快照技术(非虚拟化软件的快照),可实现对数据进行快照保护及快速恢复
4 )数据保护,具有完善的硬盘和节点数据保护机制,当发生硬盘乃至节点失效时不会影响数据正常访问。

当然,作为超融合架构,毕竟也不同于服务器和分布式存储分离部署模式,如何将虚拟化和分布式存储统一部署,并且保持高可用,甚至更优的性能和资源消耗,也应该作为这一类架构评估的重点。

2 、超融合 的 架构和特性都已满足生产环境的需求,但 也 要关注具体厂商的实现和成熟度。

业内对于超融合可靠性以及超融合的应用场景也有很多声音,其实从我们内部调研和使用的情况来看这些认知都非常过时了。上一个章节也分析了,超融合的稳定性有很大一部分都来自于分布式存储,可以看一下目前主流超融合产品在分布式存储架构和特性上的可靠性的保障。

1 )最核心的副本技术已经比较成熟,三副本的情况下允许两个节点同时全部坏掉,这个冗余度可以满足生产环境需求,而且比双控制器的冗余度更高;
2 )分布式存储的自动数据恢复比传统存储方式更高效智能,能减少故障出现后的运维压力;
3 )磁盘数据校验,拓扑感知,甚至双活等企业级存储功能一线超融合厂商都已经具备,但目前采用超融合内置双活的案例还比较少,相对而言,配合第三方成熟的虚拟化灾备产品例如 Veeam 、 Zerto 等方案的案例普及度更高;
4 )作为超融合的架构,除了存储本身的高可用行,还有存储和虚拟化整合的部分的高可用性也需要关注,目前采用的分布式存储控制虚拟机的方式都有对应的高可用机制,保证单个存储控制虚拟机出现问题的情况下,本机上的虚拟机的 IO 访问路径可以切换到其他节点。

在虚拟机化软件部分,大部分超融合厂商都在支持 VMware 虚拟化的同时提供了内置的基于 KVM 的免费虚拟化平台,目前在主要功能上都能满足需求,不过 VMware 的内存超分能力目前确实比 KVM 的内存管理技术要好很多,内置的虚拟化软件虽然大部分提供了 VMware 向其平台一键迁移的功能,但是用户自身的习惯,以及对现有平台的综合考虑,大多数用户还是用脚投票给了 VMware 。但考虑未来的成本降低和新技术的引入,以及国产化的需求,内置的虚拟化也可以重点评估和储备。

3、软硬件方案的选择和实施等也有关乎可靠性和性能

虽然超融合对于通用 x86 服务器都可以满足,甚至可以利旧已有服务器,但是要想有一个稳定的环境,首先,底层硬件的最好要统一一致,其次,超融合架构还有对 SSD 、万兆等要求,并不是随便几台 x86 服务器 就能搭建一个超融合集群,在方案选择和配置 时 也需要额外关注。

三、超融合在生产环境中的应用实践

经过评估,我 们 几年前已开始逐步引入超融合产品,并将其首先应用于互联网应用的核心生产环境中,并且同时也在开发测试环境、桌面虚拟化环境中进行部署。以下是一些我们应用的心得体会:

1 )目前一线专业的超融合产品的稳定性完全可以满足保险业务生产环境需求,例如在互联网应用中已部署了 16 节点国产超融合产品,稳定运行两年,实现资源快速搭建和交付,满足业务系统对资源池的需求;其中,有 8 个节点我们还使用了其内置的基于 KVM 的虚拟化,目前也运行情况良好。
2 )另外我们在开发测试也应用了大量的超融合节点。有些客户认为开发测试平台对性能和可靠性要求不高,可以用来尝试超融合架构,其实我们内部的开发测试环境运行压力非常大,每个物理节点有几十个虚拟机运行,负载远高于生产环境,而且开发测试环境经常会涉及配置调整、变更,相对生产环境来说更为复杂。作为一名运维人员,谁敢说开发测试环境不是生产环境,测试环境发生任何故障,同样会受到领导的“亲切关怀”和灵魂拷问“影响范围是什么”“什么时间恢复”,运维压力同样亚历山大。
3 )超融合整体的优势在各个环境中都体现的比较充分,包括:
A. 降低 IT 架构整体复杂度;
B. 架构横向的弹性扩展伸缩能力和快速交付;
C. 各超融合厂家都支持通用标准 x 86 服务器硬件,综合成本比传统架构要低;
D. 运维时面向一家超融合服务商,不用多家扯皮,运维简单;
E. 软件升级管理简单。

最后,对于厂商的选择方面, Nutanix 作为标杆产品,稳定性和可靠性等方面经常让大家忘记它的存在,当然,价格也比较奢侈。国内超融合厂商近年也如雨后春笋般涌现出来,整体性价比较高,本地服务也很及时,例如 SmartX 作为国产头部超融合产品供应商商也是业内使用较广的厂商之一。

四、超融合的未来和其他方面的思考

超融合和私有云之间的关系:超融合解决的是基础架构资源层面的整合问题,云计算是解决用户交付的问题,目前各大公司都在自研云管平台,云管平台搭配超融合,超融合架构为云计算提供基础设施服务在我们看来是未来企业搭建私有云的不错选择。

从职业发展角度,传统的存储管理员也应该考虑往云计算方向发展了,否则已经跟不上时代的发展潮流,就像当年的去 IOE 浪潮中,小机管理员也在探索新的技术方向, x 86 / 虚拟化 / 云计算等都是不错的方向, DBA 也在学习 MySQL 等开源数据库。

如今产品众多,每家的技术实现细节不一样,任何产品都有其局限性,如何把资源用到正确的场景,把控风险,是考验运维人员的经验和能力。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

21

添加新评论8 条评论

全龙寿全龙寿信息技术经理农行沈阳市苏家屯支行
2020-01-08 15:17
传统架构不能满足现阶段的生产要求业务需求,商家应抓住时机,逐步替换传统架构。
henry_chenhenry_chen联盟成员系统工程师wt
2020-01-07 17:28
超融合相对于传统架构来说,不需要单独购买存储,san交换机,简化到了只需要服务器加万兆网络交换机就能搞定;对存储的优化,支持冷热数据分层,双副本,多副本,纠删码等;对于备份容灾,本身自带增量快照功能,只是RPO时长还有待提高,超融合相对传统基础架构来说,性能也不是问题了,未来趋势!
wwzwh9521wwzwh9521系统工程师bcs
2019-12-30 10:23
很好的启发,不断去尝试应用新的技术去找出适合自己切身需要,满足生产要求的平台才是最重要的。不确认是案例中的存储具体是什么架构?如果采用软件搭建超融合平台的方式话,那不同的角色(计算/存储等)是否要划分为不同的机器去部署!

Chet_Liu@duanh02 超融合架构本身就是计算、存储都在一台服务器上。

2020-04-16 11:17

duanh02@wwzwh9521 你是说计算和存储分离部署的超融合方式?这种方式在计算与存储更好的匹配上有优势,如果没有这个问题,计算和存储部署在同一服务器(不分离方式)更能体现融合架构的优势

2020-01-02 15:20
haozhangsirhaozhangsir系统工程师银华
2019-12-30 10:10
传统架构已不能满足现阶段的it业务需求,超融合架构顺应时代潮流,各家厂商都应抓住时机,逐步替换传统架构。本文对超融合架构进行了分析和探索,为其他企业提供了方案选择,在方案选择部分,如果能增加详细设计那就更好了。
Jerry MikuJerry Miku其它The Global 500
2019-12-27 12:34
简单点的话,HCI可以看做服务器虚拟化的升级产品,更加灵活。得益于HCI的灵活架构、成功将计算、网络和存储融合一体、简化管理,自2015年始超融合市场迅速占领市场,成为主流数据中心架构解决方案之一。同时我们也应该注意到超融合技术带来的影响,首先计算网络存储的融合是通过超融合平台实现,在服务器与虚拟化之间多了一层,也相当于多了一个故障隐患点;其次上层虚拟化与超融合交互,功能、效能很大程度受超融合影响。最后对运维人员的水平,原本运维重点是专一性,一人一岗,但超融合、云这种融合性架构则更侧重运维能力的多面性,同时对超融合底层需要一定了解,才能应对日常排障。总体来说,个人认为HCI利大于弊,是一套不错的解决方案。
zwz99999zwz99999系统工程师dcits
2019-12-27 10:44
的确,超融合技术目前来说也是是一个发展趋势,应用也是逐渐增多,而且部署运维都比较方便,相对而言,核心可能用的不是太多,可能客户对这个产品有所顾忌,从泰康这个案例看,顾忌基本可以完全取消掉,相信以后采用这种技术的行业客户会越来越多,有更多的案例出现!
michael1983michael1983联盟成员技术总监某证券
2019-12-26 13:38
超融合目前在金融行业应用的范围越来越广,案例也越来越多,说明产品本身也逐步受到大家的认可。尤其是国产化超融合产品,稳定性也有了大幅提高,我们正在做产品调研。
mayu0630mayu0630数据库管理员北明
2019-12-26 10:56
确实,现在超融合技术很吃香,而且超融合技术在各个环境中都比较有优势!对工程师,技术工作者来说,是时候提升自己了!
Ctrl+Enter 发表

本文隶属于专栏

趋势观点
本专栏的文章全部来自国内外行业或领域一线最强实践专家的深刻洞察,他们的分享如同为正在摸索前进的更多同行和企业带来一盏明灯。他们的观点也为企业迎接趋势挑战、克服各种困难提供了最好争议的标的。希望有更多一线最强实践专家加入趋势观点栏目,你们是推动中国企业IT应用最值得尊敬的人。

相关文章

相关问题

相关资料

X社区推广