cuizengshun
作者cuizengshun2016-11-15 14:03
系统运维工程师, 民生银行

金融IT系统高可用运维经验总结—人员、技术、流程

字数 4632阅读 7040评论 0赞 0

金融行业具有垄断性、指标性、高风险性的特点,是国家巨额资金的集散中心,涉及到国民经济的各个部门,任何不稳定因素都有可能导致“多米诺骨牌效应”。同时传统金融业也面临着新的挑战与机遇,互联网金融对金融行业的发展起了推波助澜的作用,这种不满足于把互联网当成金融营销渠道,而是按着互联网的思路将客户的需求和产品无缝对接的模式会使金融行业进入一个全新的阶段。

纵观金融业的IT系统,也有着与时俱进的特点,不同规模企业的IT系统发展程度也不一样,但基本都经过了如下几个阶段:第一个阶段:小作坊式模式。当时受限于IT技术不成熟,企业运营对IT依赖性不强。第二个阶段:积木堆叠模式。这时企业已经意识到IT系统的重要性并开始大量扩张IT系统,但此时很多系统都是在没有很好的架构下堆叠起来的,以至于系统冗余复杂。第三个阶段:大集中上收阶段。由于金融业IT系统数量多且地理分散,因此为了方便管理,各大数据中心对IT系统进行了上收,同时搭建灾备中心,完成了规模化运维。第四个阶段:高可用运维阶段。这时数据中心的重点已经由建设转为运维,开始以业务为导向,以系统精简稳定为目标,建立了一整套完整的运维体系,确保IT系统成为金融业稳定发展的基石。

金融业IT系统的高可用运维

面对日益增长、日趋复杂的金融IT环境,IT系统的管理已经成为IT部门关心的重点。据统计,超过70%的IT预算花费在现有系统的运行维护上。减少业务中断时间,企业可以减少成百上千万的经济损失。以著名的“冰山理论”为例,发现占冰山大部分的永远是那80%非计划故障,而在非计划故障中绝大多数是可以通过各种手段提前预判并规避的。

在数据中心高可用运维中,被广泛验证的是解决之道是ITSM(IT服务管理),而人员、技术、流程这三个方面又是实现高可用运维的核心。

人员

金融业IT系统维护人员是一个比较特殊的群体,7*24小时保障,无数次熬夜奋战,天天承受着别人无法想象的工作压力,但仍无怨无悔,真可以称得上是中国好员工。金融业IT系统的稳定与否与IT维护人员息息相关,以人为本,这才是IT系统稳定的立足之本。这也对IT从业人员提出了较高的要求,首先,不断提升专业技能,有了平常的不断学习不断积累,才能在面对故障时迅速解决问题恢复生产。切忌遇到问题后想都不想直接抛给厂商去处理,这样只会逐渐让自己边缘化,同时由于厂商不同人员水平也有差异,不一定能保证解决问题的质量,因此只有自己的技能真正强了才可以统揽全局。其次,要提升自己的软性实力,这包括自我心态抗压调节能力、工作生活平衡能力。由于工作强度大,因此保证一个良好的身心状态非常重要,这就要在日常工作之余学会放松自己,用积极的心态面对一切。其次,要有良好的沟通协调能力,这样才能及时、准确的传递信息,节省时间和成本,确保系统高效运行。最后,要有探索创新精神,要勇于接受新技术,用发展的眼光来看待数据中心的运维,保持数据中心持续发展的能力。

**技术
标准化配置管理**

数据中心里的软件类别及版本有数十至上百个,但仔细分析一下各个软件使用数量占总体的比例便不难发现,有些软件只在少数几个系统上运行,究其原因为当时应用开发人员开发的程序只支持在这个软件下运行,这样便造成了骑虎难下的场景:系统维护人员还得单独花时间花精力来维护这个“不通用”的软件。因此在系统建设初期或者在系统变更期应尽可能的把IT数据中心的软件“标准化”。针对每款软件的版本、配置步骤及参数也要标准化,软件版本的标准化可以方便软件生命周期管理,软件配置步骤及参数的标准化可以规避人为的配置失误。

在标准化管理中,制定标准显得尤为重要,因此在制定标准时要结合本数据中心的运维经验,并结合厂商给出的建议值,最终制定出最优的标准。并且在日常运维中不断积累改进,不断完善修订标准。

资产生命周期管理

对于金融IT系统,软件和硬件是支撑系统正常运行的两大支柱。随着近几年中国金融业IT系统基础建设的迅速扩张,每年都会有大量的新设备、新软件投入使用,而随之而来的是这些资源生命周期如何管理。

对于软件生命周期的维护,首先,要先梳理清楚现有版本名称及版本,这其中包含业务系统名称、系统负责人、IP地址、软件版本等关键信息,这些信息应该定期进行更新,并最好设置软件版本管理岗位来进行专职负责。其次,提前检查各款软件版本的生命周期为多长时间,并定期主动去查询其EOS(End Of Service)时间,在软件支持过期前安排对新版本的测试,这些测试包括新功能测试、性能测试、稳定性测试等,确保新版软件上线后不会出问题。最后,定期安排软件升级,由于数据中心系统数量众多,因此建议把软件版本升级作为一个长期的项目,制定好软件升级规划,每个季度对其中的一部分系统进行升级。

决定何时淘汰陈旧的IT硬件设备存在一个平衡点。一方面要尽可能地发挥硬件的效能,降低数据中心运营的成本;另一方面确保陈旧的硬件不会经常导致系统宕机,影响系统正常运行。因此要根据经验以及保修时间提前制定好每种型号的硬件建议使用的期限,并在使用期限结束前将业务系统迁移至新的硬件资源上去。同时对于淘汰下来的硬件设备要进行利旧,将这些设备用于开发测试环境,充分利用硬件资源。

应急方案建设

金融业IT系统最重要的是宗旨是稳定,当系统出现故障时最重要的是快速恢复生产,而能否快速恢复生产很大程度上依赖系统的应急方案的完整性和可用性。应急方案建设就是要做到防患于未然,在建设应急方案时要满足“全面、可用”这四字方针。所谓“全面”是指在建设应急方案时应该把所涉及的面都要考虑到,例如系统架构图、系统故障影响范围、与其它系统交互方式、数据备份方式、应急处理步骤、联系人方式等信息。所谓“可用”是指在系统故障时按着应急操作手册的步骤真正能迅速恢复生产,这需要在建设完应急方案后要定期对应急场景进行实际演练测试,以实际的演练来检测并完善应急方案,做到应急方案有效可用。

灾备规划建设

银监会、保监会、证券业协会近年来分别对银行、保险、证券三大行业的灾备建设提出了对应的标准及政策,这充分说明了灾备建设的重要性和必要性。这些标准及政策对不同级别的业务系统的RTO(恢复时间目标)和RPO(恢复点目标)也有着不同级别的要求。

从灾备方案的选择上来看,目前大中型金融行业基本会采用“两地三中心”的灾备方案。而小型的金融行业则受灾备中心建设成本的控制,目前多采用“同城数据复制”,实现同城内跨数据中心的数据保护。从实现的技术方式上来看,有数据级灾备和应用级灾备两大类。数据级灾备关注数据的备份和恢复,是应用级灾备的前提基础;应用级灾备建立在数据级灾备之上,进而提供业务接管能力。从未来发展趋势来看,双活数据中心是未来发展的重点,既可以提高双中心硬件资源的使用效率,又可以保证灾备无缝切换。但由于建设灾备中心所需要投入大量的人力和财力,因此建议针对不同企业建立适合自己的灾备建设体系,在建设灾备前先完成相关的调研及分析,针对不同业务系统建立不同级别的灾备体系。

另外,灾备系统在灾难时能否进行正常的切换是一个很实际的问题。纵观金融企业内近几年的几次较大的故障,发现两个特点:一是决策人在是否要进行切换上有些犹豫;二是灾备切换后不一定能正常的接管业务。出现这两个现象主要是现在很多企业对自己的灾备环境心里没有底,不确定灾备是否真正可用。因此建议在环境搭建初期就充分论证切换的可行性,充分考虑各种灾难场景,并定期真实切换至灾备中心运行一段时间,以验证灾备中心的可接管性,避免搭建出来一个应付检查的花架子。

主动性分析及维护

IT系统的稳定是金融企业正常运营的基石,作为数据中心的维护人员,高可用运维是对运维提出的较高要求,光靠被动响应是远远不够的,这就需要维护人员主动出击,提早发现问题,规避相应的隐患。首先,建立业务系统性能预估体系,根据已有的性能数据,建立相应的数学模型,推演出业务量与性能的关联关系,这样便可提前分析系统的资源是否可以满足未来数月或者特殊日期(例如年终结算、记息、双十一)的业务量猛增性需求,从而避免性能瓶颈影响系统运行。其次,部署自动化工具定期对现有系统进行健康检查,通过例行“体检”来检查系统中是否有无隐患,并通过自动化工具对各项指标进行检测,如果某项指标不达标,便调用自动化工具进行自动化调整或者扩容,以实现自动化工具的主动性维护,这样让系统运维变得更“智能”,不仅简化了运维人员的工作量,也消除了系统运行的隐患。

**流程
变更评审及变更管理**

变更操作是数据中心每天都所需要做的操作,在生产系统上进行变更有其特殊性,这无异于刀刃上跳舞,这种主动变更的目的是为了让系统更稳定的运行,但如果变更方案有问题或者操作失误,就有可能人为造成故障。因此应该有一套完整的变更管理流程来保障变更的万无一失。首先,在变更前先把变更内容及变更操作步骤细化,最好把每个命令每个参数都写清楚,同时把每个操作所需要花费的时间估算好,列出对应的操作人及复核人。其次,变更前要有变更评审,请各个相关的专家同事对变更步骤进行审核,多层次把关,把变更风险控制至最低。最后,要有变更记录机制,确保每次变更内容都有案可查,以便后期运维查问题时可以方便核查之前做过哪些变更。

故障后联动性处理

由于数据中心所维护的系统较多,因此相关的部门及厂商人员也众多,当出现故障时要集合相关人员快速处理,此时人员间的联动协调是能否快速恢复生产的关键环节。要让大家的意识中一定要明确一个原则:恢复生产优先级最高,其它次之。这需要建立部门间协同工作的平台,提前要明确各个部门各个人员相应的职责,清楚定义相互之间的接口,避免出现问题时相互踢皮球,耽误处理故障的时机。这需要在日常运维中就注意明确相应人员的职责范围,并在处理故障时有一个总体负责人(故障经理)统筹规划,并来及时协调各方人员,督促在规定时间内完成阶段性处理建议。

故障问题跟踪及分类汇总

在数据中心运维过程中,每天都有可能遇到各种各样的故障,这些故障有些马上就被解决掉了,有些可能需要一定时间的分析才能定位问题所在,为了确保每一个故障问题都不会被遗漏,并且实时跟踪处理进度,因此建立一个故障问题跟踪机制非常重要。通过故障问题跟踪系统可以记录每个告警事件发生的时间、后续处理方案及负责人等信息。定期把长期未关闭的问题单拿出来分析,研究相应对策。

在建立好故障问题跟踪系统后,这些故障统计数据还可以用大数据分析的方法进行处理,从而找到哪类业务系统系统容易出现故障,故障引起的原因主要有哪几类,故障发生有没有周期性等统计信息,通过这些统计信息对高危风险提前规避,从而保障业务连续性,这也是建立故障问题跟踪机制的精髓所在。

金融业IT系统的发展趋势

当今金融行业发展迅猛,各个企业为了迎合市场的发展频繁推出各种各样的新业务,这些新业务给企业发展带来了新的活力,但无形中也给企业的IT部门带来了新的挑战。由于新业务的发展时效性强,需要IT部门能跟上市场需求的快步伐,迅速搭建与业务相配套的IT系统并提供服务,待业务下线后还需要及时回收相关的资源。这种以业务为导向的运营模式使得金融业IT运维人员不能只低头看路不抬头看天,需要从管理人员到运维人员,从宏观架构到技术细节,从管理模式到具体落地方式都要有所改变,来适应这种业务驱动的运维模式。面对云技术,面对大数据技术,作为金融IT从业人员,永远记的那句话:企业要长久发展,永远不变的是改变。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

PowerVC专栏
本专栏主要分享PwerVM和PowerVC相关方面的架构、实施、运维等经验,以及企业私有云建设的相关经验及总结。
最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广