jeko
作者jeko·2021-01-27 15:51
系统工程师·某省农信

银行数据中心云模式下运维架构的演进策略分析

字数 3928阅读 1838评论 0赞 1

一、背景

近几年来,随着国内云计算产业的飞速发展,以稳重发展为特性的商业银行数据中心在 IT 架构上也开始了转型,纷纷推进 IT 架构云化。在这样的背景下,银行数据中心云平台的架构设计、产品选型等建设性话题往往是银行科技部门关注的重点。然而,保障业务健康运行的背后 “ 功臣 ”—— 运维系统同样至关重要,每一次 IT 系统的转型,保障业务系统稳定运行都是最重要也是最艰难的部分。在当前银行 IT 系统纷纷向云架构转型的时刻,运维系统再一次面临着新的挑战。。

二、云模式下银行数据中心运维的特征

基于云计算的银行数据中心的运维体系主要特征如下。

(一)云计算集群规模大

组成云计算平台的节点通常数量众多的普通 x86 服务器,平台的高可用性不再借助传统的服务器硬件冗余方案来实现,而是通过云计算自身的集群架构高可用来保障服务的连续性。因此,云计算环境下运维的基本单位为集群,云运维的基本任务,如扩容,缩容、 运行监控、事件管理、故障管理等也以集群为单位。而单集群的规模是衡量云计算平台能力的重要指标之一,对于数据中心而言,云计算集群必须达到一定规模才能发挥云计算平台的高可用、低成本等优势。因此,云数据中心的设备规模从几百向几千、几万甚至几十万数量级演进时,给运维带来了巨大的挑战。

(二)对云计算环境下的规范化要求更高

正是由于云计算环境发展的巨大规模具有可预见性,对于银行数据中心,或者说任何一个计划进行云建设的企业来说,标准化和规范化,应该是需要优先于云平台落地的东西。
在云计算的大规模集群环境下,集群的部署、迁移、扩容等管理依赖于从数据中心设计、网络设计、服务器选型到云平台实现的全局统筹的规范化。制定规划和标准,再进行设计架构,选择云平台产品,稳步推进落地实施方能保证云环境的建设朝着安全可控的方向稳步发展。

(三)对集群的可运维性要求更高

云计算数据中心采用了先进的动态资源调配技术、端到端的资源监视和控制技术以及可量化的资源和负载匹配机制,云计算数据中心的最理想状态应该能实现 7 × 24 小时无人值守的、可远程管理的、设备到应用端到端的统一管理。为确保安全、稳定、持续的运行,云计算数据中心需建立高度可信的计算平台和网络安全防范体系,建设数据复制、备份以及容灾中心。因此相比传统运维模式,云计算环境下对于大规模集群的可运维性、可管理性的要求更高,这也是集群落地的刚性需求。

(四)数据中心的服务特性大大提高

相对于传统的数据中心,云化后的数据中心的服务特征更加明显,云数据中心将基础设施、平台、软件以服务的形式提供给最终用户,它利用虚拟化、 SDN 等技术将网络、计算、存储以及应用等资源池化,通过自动化技术按需为用户分配 IT 资源。因此在云运维中 IT 请求交付流程的地位不断突出,也使得云运维显示出明显的运营性质。

三、云计算带来运维压力和挑战

随 着云计算技术的大规模应用,传统运维模式向云计算环境下的运维模式演进面临很多挑战,主要表现在以下几个方面。

(一)运维复杂度大大增加

云数据中心的设备规模从几十、几百向几万、几十万数量级演进时,海量硬件设备的使用对硬件故障的快速定位和隔离将带来巨大挑战。传统人均 50 ~ 100 台设备的维护效率,在大规模云化环境下,需要投入大量人力。同时,采用虚拟化和分布式弹性技术也加剧了云数据中心的复杂度。众多开源技术的引入也使得运维变得越来越复杂,传统人工运维模式处理速度慢、出错概率高,已不再适用云模式架构。

(二)运维对象发生变化

传统数据中心通常采用“烟囱式”的建设方式,因此提供的资源是静态的,很难在不同 IT 系统之间进行流转,难以采用统一的资源池对其进行动态分配。而云计算数据中心的核心优势在于“先聚合、后分割”,即能将所有 IT 资源(计算、存储和网络)进行集约化,然后针对多用户对其进行虚拟化分割,最终根据用户的实际使用需求进行动态分配,从而实现更加灵活高效、低成本地使用资源。因此,运维对象由独立的设备转变为基础设施资源池,由各种监控管理工具转变为云管理平台、云运营平台和云监控平台,传统的运维技术及管理制度不适用于新的运维对象,同时也对运维人员的经验提出了更高要求。

(三)运维人员的角色需要转变

传统运维模式下运维人员主要重点关注如何解决生产问题、维护系统稳定健康运行。而云模式下的运维人员,不应该是天天如同救火队一样地去解决问题,而是需要去搭建维护一个平台,来承载项目管理、持续集成、持续部署、快速上线等工作。同时,运维人员的角色需要从“运维管理”转变为“运维研发”,将运维和开发相融合,促进应用架构和基础架构的更好协同,发挥技术合力,提升整体创新能力。

(四)服务管理流程需要变革

云计算环境下系统的建设与资源 的使用由“烟囱式”的独建独用转变为平台建设与池化共享。因此,服务管理流程从原有的单一事件管理和故障管理转变为统一的针对资源发布、删除、申请的服务管理流程,传统的服务管理流程已不适用于新的运维模式。

四、云模式下运维架构的转变

(一)运维体系重新梳理和建立

利用云计算技术池化部署资源及平台后,运维模式从传统的“烟囱式”垂直运维转变为横向共享模式,运维对象中增加了包含含资源管理和服务管理在内的虚拟化管理层。因此,需要重新梳理并建立新的云计算运维体系。

1 、运维组织架构
云计算环境下的运维组织架构中包含以下三个运维部门。职能管理部门:包括业务运营管理单位和业务平台运维管理单位。运维责任部门:包括云平台运维团队、硬件运维团队和业务平台运维团队。技术支撑部门:主要为第三方技术单位。

2 、云计算环境下的运维岗位
云计算技术引入了虚拟化、资源管理、服务管理后,产生了云平台资源管理员、云平台操作管理员、云安全管理员、云平台统计分析员等运维岗位。

3 、云计算环境下的运维范围
业务平台运维范围:包括虚拟机操作系统及其上的中间件、数据库、应用系统、云运营平台等。云平台运维范围:包括虚拟化软件、云管理平台、云监控平台等。云平台硬件运维范围:包括服务器、网络、存储、安全设备等。

(二)实行敏捷高效运维流程

云模式下运维的未来会是如何呢?其实近几年特别火爆的 DevOps 理念已经给大家一个很好的启示,未来运维必然是在 DevOps 的基础上继续走下去。 DevOps 的目的是将一个项目的发起、设计、开发、质量测试、安全检查、部署等流程完全标准化、自动化、流程化,把运维、开发、项目管理人员紧密配合和无缝衔接,最终达到端到端的应用交付。这是当前运维领域,比较流行的理念。
在这样的理念指导下,我们云模式下数据中心的运维部门应该围绕敏捷、高效的创新目标,持续改进生产运维流程,发挥分布式架构的优势,支持敏捷开发和持续交付。这样才可以将运维触角前移,主动关注业务变化和营销计划,深入了解业务交易特性,加强以用户为中心的协作,最终实现业务与科技的融合,将运维部门在业务发展中的作用和地位提升到前所未有的高度。在银行等金融行业近几年有不少成功的案例,例如某些中小银行的互联网金融产品的上线和维护就是依托 DevOps 的模式实现了产品功能基于需求变化的快速发布和变更,得到用户的高度好评。

(三)探索智能化运维

云数据中心的资源规模、业务规模、组织规模远远超过传统数据中心。新设备的快速部署、快速上线、纳管监控、资源编排、定期巡检、升级和配置变更这些原本就颇为复杂的工作在规模和速度的双重压力下都变得更加艰巨,同时系统故障的数量和频次远超传统模式,光靠运维人员手工操作已不现实,因此在这样的背景下智能化运维手段逐步成为云运维的首选。所谓智能化运维主要体现在两个方面。

1 、全生命周期自动化管理
云数据中心的资源规模和业务规模都远远超过传统数据中心。传统的手工方式实现云资源和云服务的上线、监控、升级、变更、扩容、限流、降级与下线的生命周期管理时,效率低下、人员误操作风险高,自动化手段势在必行。通过变人工处理为自动化处理,提升运维的人均维护效率,满足业务的敏捷要求,逐步向无人值守的自动化运维最高境界演进。
· 想实现自动化运维,就需要建设一个以工作流为中心的自动化运维平台,运载日常运维经验标准化和工具化的框架,将复杂操作规范化、模块化和简单化。通过预先配置好使用频度较高的变更操作场景,比如已知典型故障的修复操作、资源池的扩 / 减容、补丁安装、健康检查、合规审计、软件批量安装、管理节点的配置备份,以及设备批量上下电等,可以实现开箱即用,从而大幅提升运维的效率,降低变更时人工误操作的概率。

2 、智能化的故障预防与自愈
传统模式下,运维人员的工作模式常常是被动等待问题发生,然后再进行故障处理。根据有关数据统计,运维人员平均每天计划内的工作只占 50% 左右,剩下的时间都是在到处救火。随着云数据中心规模快速增长,运维人员需要处理的事件量越来越大,人工救火将力不从心。这就需要各家投入科技力量打造一个智能高效的运维平台,利用大数据关联分析与机器学习、态势感知等技术为运维系统赋予人工智能,提供从故障预防到故障定位、系统自愈、性能优化等智能保障能力。当然,想要达到这样的智能化水平需要很长时间的研究探索和大成本投入,是需要一个过程去发展的。但这是如今云技术快速发展环境下运维的发展趋势,我们必须顺应潮流去发展和提高。

五、总结

在云计算飞速发展的今天,业务和科技相结合甚至技术带动业务已是发展潮流,金融行业亦不例外。银行数据中心在发展云计算的道路上应该首先制定稳定的云计算发展战略,将云架构标准化,稳步推进云计算的建设。在运维架构上优化组织架构,推行敏捷高效的运维流程,在此基础上大力探索和发展智能化运维方是未来发展之路。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

趋势观点
本专栏的文章全部来自国内外行业或领域一线最强实践专家的深刻洞察,他们的分享如同为正在摸索前进的更多同行和企业带来一盏明灯。他们的观点也为企业迎接趋势挑战、克服各种困难提供了最好争议的标的。希望有更多一线最强实践专家加入趋势观点栏目,你们是推动中国企业IT应用最值得尊敬的人。

作者其他文章

相关文章

相关问题

相关资料

X社区推广