罗布泊
作者罗布泊2020-11-16 12:08
系统开发, 某大型金融公司

某大型金融机构新一代云运营平台的架构设计和实施经验分享

字数 7546阅读 2351评论 3赞 9

文章简介:

本文以金融行业数字化转型为背景,对金融行业私有云建设中云运营平台建设的实践进行总结,探索出适合金融行业的新一代云管平台设计路线:从业务需求和使用者角度出发,解耦云运营平台和管理平台,解决行业中云管规划混乱的问题,降低运营成本,提高资源利用率,赋能业务持续创新发展。

随着现代金融数据中心的建设,金融机构通过大规模的私有云建设,不断推进云计算在金融行业的落地。在私有云部署建设的推进中,企业对云的诉求也越来越高,从初期的IaaS层资源管理需求,逐步发展到PaaS、SaaS及现有工具平台的一体化运营整合需求。云运营应运而生,以云资源管理为出发点,整合云产品、云服务,满足企业对云基础设施能力的需求,从而进一步保障、提速企业业务的发展。

一、云运营平台建设的需求及痛点

在大型金融行业中,对于综合性云运营平台的持续建设,通常有以下几点需求:

1、多云管理、混合云弹性部署需求

在金融企业数据中心存在多种应用环境及区域,包括测试环境、预生产环境、生产环境,各个环境下又包括核心区、非核心区、互联网隔离区等,单一云平台存在规模上限,因此需要建设多套云平台满足业务需求。另外,在营销高峰时期,系统对计算、存储、网络资源的需求呈现井喷式增长,但随着营销的结束,资源的需求量随即下降。

因此,云运营平台需要具备多种云环境的管理能力,在资源的需求高峰时期,具备对行业金融云(混合云)的快速调度能力,支持应用的混合云弹性部署。

2、现有平台的集成整合及数据开放需求

大型金融企业应用运维部门,在数十年的发展过程中,内部的流程管理体系、监控告警体系、配置管理体系已然成形,并渗透到企业IT管理的方方面面。云运营平台的设计和建设需要全盘考虑,向下对接和纳管不同类型的IT基础设施平台,横向对接现有流程、监控体系,通过周边系统的有效融合,实现IT信息的互通、共享和交互,实现企业内部信息的数据开放及收敛。

3、产品及服务标准自动化需求

云产品及云服务的大规模上线,后台需要具备强大云产品及服务模型的支撑能力,模型需要根据业务场景的变化进行快速迭代,包括数据结构的变化及数据字典的调整,需要构造灵活的云产品及服务模型,以减少大量的重复开发工作;同时,云产品及服务在标准化之后,需要具备自动化实施的能力,实施包括执行、检查、输入/输出参数,因此在定义模型的过程中,同样需要具备自动化任务编排、调度能力。

4、应用部署生命周期需求

部署生命周期包括上线、调整、下线三大核心场景,三大场景囊括了所有云产品及云服务,平台需要支撑需求方在任意时段提出的系统部署需求,且具备快速的自动化响应落地能力。同时,系统部署信息对系统的长期运维至关重要,需要将部署的应用基本信息、云资源信息、业务开发运维人员信息、架构信息、安全信息、监控信息等沉淀在平台进行维护(相当于企业CMDB+),在新旧运维人员交替及部署信息变化过程中,通过平台可以实时且真实地反映系统部署的现状及过去。

5、虚拟计费及SLA管理需求

在数据中心应用的长期运维过程中,容量和成本管理至关重要。公有云通过资源收费推动企业对云资源成本进行核算,在私有云领域,一般项目得到批复后,资源便是长期性的占用,即使系统已经没人使用和维护,也很少有应用主动下线。因此,在云运营建设体系里,有必要通过虚拟计费进行成本核算,以满足系统立项批复后的资源配额下发、资源计量统计需求,以推进业务的良性发展。同时大量的云产品及服务的落地,需要有效的SLA管理,以保证云服务的交付质量,确保云上的各项服务能够实现高可用、高可靠的特性。

云平台建设在数据中心是持续迭代的过程。稍具规模的数据中心本身就具备各类成熟的运维管理平台,如CMDB、监控、云资源管理平台、云数据库管理平台、日志平台等。由于专业分工不同,这些平台散落在不同室、团队,各自分散管理维护。随着数据中心的规模化建设,由于平台分散而引发的资源管理标准、应用部署管理、数据开放与治理问题层出不穷。如何在架构设计上将运营服务与管理服务解耦,突出云管的运营和服务特性,成为亟待解决的痛点。

如果把数据中心看作一个人体,云运营就是数据中心的“骨架”和“血脉”。以引入业界成熟的云管产品为基础,对接和驱动已有的各类运维和管理平台,建设统一云运营平台,实现数据中心云运营架构升级及一体化管理迫在眉睫。

二、云管的技术方案选型

基于企业自身的业务需求及参考云计算行业发展的趋势,高效上云已是金融行业的普遍诉求,各类云运营(云管)平台也是遍地开花,提供此类产品及服务的厂商层出不穷。大趋势之下,金融行业需要尽早、尽快地响应社区技术发展潮流,推进自身运维、运营的转型升级,以持续支撑业务发展。

基于自身云运营建设背景及业界技术发展趋势,云运营基础技术产品选型需具备以下基本条件:

1、运营自助化:云资源服务自助化,按需获取资源;掌握云资源使用情况,资源和服务运营管理统一化;
2、资源管理能力整合:对多种云平台基础资源统一和完备生命周期监测、管理与部署调度,构建覆盖IaaS、PaaS、SaaS的云服务治理体系;
3、运维自动化:提供对云和非云资源统一监控管理、自动化运维管理、全生命周期管理、流程管理,自动化完成云端资源部署,提供物理装机、软件一键式部署、资源批量部署等运维自动化管理。
4、结构一体化:具备灵活开放的API适配连接周边平台,统一的运营管理和计费计量能力

通过对业界云管产品的充分调研和相关测试,我们最终选择了博云的云管产品BeyondCMP,其符合以上基本条件,并具备灵活的定制化本地开发能力,可以响应和适配企业现有基础平台。因此,我们以博云的云管产品为原型进行方案设计与整合,二次开发建设满足生产实际需求的云运营平台。

三、建设目标、原则与思路

1、建设目标

建设统一化云运营平台,覆盖并打通传统运维与云运维,对下整合各类运维管理工具,对上提供统一的云服务能力;在云资源之上提供以应用为中心的场景化工具同时,提供精细化的度量运营分析与运行保障能力。

2、建设思路

基于需求痛点及技术方案选型特点,总体建设思路需要围绕“六个化”:管理统一化、工具场景化、业务流程化、服务自助化、运营计量化、响应自动化进行展开。

  • 统一化管理:统一化管理物理机、网络、云平台、应用、服务等对象,维护全局的对象关系与基础运行数据。
  • 自助化服务:提供各类云资源或云服务通过产品形式对外发布,需求方可以自助式进行资源申请,提高IT运营效率。
  • 计量化运营:围绕云资源、云服务、应用、需求方等管理对象,实现运营过程可计量,能够从资源统计、应用上、下线效率分析等多个场景提供数据支撑。
  • 应用场景化工具:聚焦部署上线、调整、下线三大核心业务场景,满足统一运营技术要求。
  • 流程化业务:梳理关键资源或部署服务申请流程,形成覆盖资源申请、网络开通、业务上线、配置变更等过程的流程化,支持可自定义流程。
  • 自动化响应:针对常态响应式运维场景,提供覆盖应用用户创建、启动项管理、定时任务管理、路由添加等工具支持,覆盖应用运营的全场景。

3、建设原则

  • 统一性原则:统一规划、统一标准、统一设计、统一建设、统一管理。
  • 先进性原则:采用业界先进、成熟的技术作为整个系统的技术架构,同时借鉴同领域的先进实践经验,做到可用性高,信息及时、运行高效,界面友好,升级和扩展性强的基础环境平台。
  • 业务驱动原则:系统建设需求来自应用实际业务需求,充分考虑运营部署管理痛点,构建满足业务运营部署管理的平台。
  • 科学规划原则:根据业务发展和技术发展的趋势,对平台功能范围进行科学合理的分析与规划,确保在投入产出和未来业务发展支撑两个维度获得平衡。
  • 安全性原则:构建多级安全体系,统一安全管理,多级授权、数据访问安全控制,考虑容灾容错;从系统结构、设计方案、技术保障等方面综合考虑。
  • 可拓展性原则:充分考虑业务未来发展的需要,尽可能设计简明,降低各功能模块耦合度,并充分考虑兼容性。

四、方案设计

参照博云云管的产品设计架构,以及公有云通用的方案设计,云运营平台往下定义两个子平台、五个功能域。一方面,聚焦应用部署集中控制台建设;另一方面,聚焦云产品标准自动化建设,实现集团内统一云运营门户体系。

1、功能定位及与周边系统关系

·云运营平台功能定位:

以统一服务、统一管理、统一运营为切入点,扎口数据中心的系统运营入口,高效支撑应用部署需求。

·云运营平台与周边系统关系:

在设计和建设的同时,通过API通道、数据库通道、命令行通道和这些已经稳定运行的系统进行交互,有效融合周边系统,实现IT信息的互通、共享和交互,实现企业内部信息的数据开放及收敛。

2、平台管理

数据中心云化是大势所趋。云上规划越来越宏大、功能点越来越多,各类极具专业特色运营平台层出不穷。按照通俗定义,所谓“云”既是“平台”,云运营是对专业平台的运营,因此云运营是横向的,是统一数据中心所有平台、所有能力的高度集成化平台。

云运营核心是规划和打造“两把剑”。“一把剑”给租户,通过自服务平台运用云产品及应用管理能力;“一把剑”给专业领域管理员,通过管控平台管控数据中心内容建设及资源运营。“两把剑”统一在云运营下进行整体规划、打磨,实现将离散的专业平台形成合力,基于云运营实现数据中心能力的统一。

2.1 自服务平台

面向用户侧的自服务平台,由需求方查看云产品、云服务信息,提交应用部署需求、查看应用部署信息。

随着企业规模扩大,业务快速发展,应用部署需求爆发式增长,系统、安全、网络和应用运维等领域均出现不同层度的交付瓶颈。云运营上线之前,需求的提交和交付是通过传统服务单的形式进行,服务单下分派各种服务工单,由各专业团队分别手工实施、汇总传递交付数据。

在规模化云时代,传统交付模式难以应付快速增长的应用需求,不同专业领域产品的用户体验、交付形式和标准各有特点难以统一,手工传递需求信息的过程也容易信息失真误差,存在返工风险。因此在设计自服务平台时,我们着重将自助化、统一化、自动化、一体化作为平台设计的基本条件。

自服务平台产品门户集中所有云产品和云服务,各个专业领域产品统一模型结构和用户体验,用户所有操作起于此、终于此。产品通过订单的形式进行管理,实现快捷、自助和标准交付。自助化的云产品和云服务设计,不仅大大提升运营效率,加快需求交付周期,同时大幅降低运营成本,释放生产力。原有人力可以将更多时间、精力投入到更多专业领域云产品和云服务的标准化能力建设,实现数据中心自动化、智能化运营的正反馈。

控制台在应用管理运营上,打破现有专业平台系统间的数据墙和作业墙。通过数据同步的方式将数据集中在云运营应用管理控制页面,包括系统信息、资源信息、监控信息、安全信息等各领域融合数据,具备高度的综合信息管理和查询能力。同时将CMDB天然融合到云运营的建设过程中,实质上同步实现了CMDB可视化。通过标准API封装,在执行层面将应用作业能力和作业工具进行插件化集成,快速扩展应用在线维护、扩缩容等能力,相当于应用集中作业台。

2.2管控平台

面向管理侧的云产品、云服务综合管理平台,支持对云产品、云属性配置,对平台数据进行综合运营管理。

从大型互联网IT企业演进和发展来看,随着企业IT设施膨胀,大多都会向云计算集成服务商方向进化,因为云实现了数据中心的统一以及运维能力的富余输出。集团对云运营本身的定位与公有云目标类似,不仅需要租户侧统一,也需要管控侧统一企业所有专业管理平台,将其能力与数据集成,形成数据中心的统一管理端。管控端主要侧重产品运营和平台运营。

产品运营是面向租户测提供的云产品和云服务的运营管理。在产品运营里对各类云产品和云服务的参数进行维护,包括数据和模型维护、已有实例维护、容量维护、订单审批和执行维护、任务执行逻辑控制和异常业务维护等。产品运营集中能够极大的提升产品运营效率,一个界面即可掌握整个数据中心的所有需求、实例现状。

平台运营主要为支撑云的功能、数据和内容扩展。平台发展过程中,需要不断接入云产品和云服务,对接纳管新的专业平台。平台运营功能上需要灵活可扩展以不断适应新的应用运营部署场景,数据上需要将逐步积累的企业运维数据和应用部署数据进行全局管理,包括自动标签化、手动标签化等站在平台维度进行分级分类、画像等,再辅以虚拟计费,对各个层面应用进行成本考核,统筹数据中心运营和管理。

3、功能域设计

自服务平台和管控平台向下细分五大功能域,分别为产品门户、控制台、产品运营、平台运营和平台管理,下面就五大功能域设计结构和集成内容进行概要介绍。

3.1 产品门户

  • 产品介绍
    通过统一的产品门户,为使用者提供资源或运维类产品的介绍与展示

  • 产品申请
    基于产品运营的统一产品模型配置,灵活定义产品申请的可视化界面,为使用者提供简单、便捷地交互体验

  • 产品购物车
    提供使用者类似公有云产品申请体验,支持多种产品一次申请,提升产品申请效率

  • 产品文档
    提供使用者平台使用、产品申请、申请审批、问题排查等各类产品及运维类在线文档,提升平台帮助体系

3.2 控制台

  • 我的应用
    提供应用系统操作及运维的统一入口,方便使用者统一管理自有应用,构建应用为核心的交互体系

  • 代办工单
    提供运维评审、实施方工单处理工作台,提升资源或运维操作工单的处理效率

  • 我的资源
    提供申请后资源的统一展示、统一管理

  • 我的需求
    提供申请后需求展示、处理、实施、统计等全生命周期管理

3.3 产品运营

  • 产品模型
    构建产品资源模型,为产品门户提供统一模型配置及配置展示

  • 资源列表
    统一管理产品资源清单,维护、展示每类产品内的资源列表,方便产品运营方对资源的统一管理

  • 产品配置
    为产品门户内产品申请所依赖的各类配置或规格信息提供统一配置与管理功能,灵活定义规格、区域等产品资源依赖信息

  • 产品任务
    为资源运维方提供产品自动化实施任务的统一配置与统一管理,方便运维人员针对产品自动化实施任务的问题分析与排查

3.4 平台运营

  • 内容发布
    提供方便、灵活、可扩展的产品介绍、展示内容的定义及发布

  • 方案管理
    建立在部署方案基础上,提供面向应用的资源、人员、架构、安全的统一管理

  • 任务编排
    提供基于脚本、API接口等混合调用编排的能力,利用编排能力,构建产品资源自动化实施与运维场景,提升平台可扩展能力

  • 采集检查
    提供面向各类资源、环境的采集能力,提升资源采集效率,增强采集后已应用为中心的核验、检查能力

3.5 平台管理
 

  • 用户与权限
    对接自有SSO用户、组织架构体系,统一管理用户的操作系统、数据权限

  • 系统设置
    提供平台级的通用配置、数据字典项、系统级参数的统一管理与配置

  • 审计日志
    提供平台内的各类操作日志的查看、检索、统计功能,用于审计跟踪

  • 账号信息
    提供使用者自身账号信息的维护与管理

五、实施经验及注意事项

云运营平台除了作为云产品、云服务的统一入口,还包括应用部署全生命周期管理,是运维部门的核心引擎。作为周边系统的数据源及交汇点,也是多种信息汇聚的可视化平台。   

在平台的设计和落地过程中,涉及数据中心的各个职能团队,需要主动与现有IT管理模式、组织结构等多领域进行适配和调整。既需要能快速地整合周边平台,又需要依赖周边平台提供的能力来稳定可靠地输出云产品云服务。另外,运维职责及边界逐渐产生了交叉和模糊,很多问题的定位于处理同样前置到平台整合方,对维护者的综合专业能力有了更高要求,以下几点经验和大家分享:

  • 数据中心核心:云运营的建设除了云资源标准化、自动化实施,重点需要围绕CMDB进行数据一致性建设,准确、靠谱的数据是平台的根基。

  • 形成标准API规范:内部专业平台对接时,运维管理平台之间松耦合,集中的API监控管理,有助于对接的快速落地及问题排查。

  • 形成一致目标:将专业团队平台收归到统一的云运营门户下,需要打破内部团队、平台间数据壁垒,一致的目标有助于工作快速推进。

  • 尽早调研明确职责:随着自动化、自助化产品建设,很多专业团队的内容可能整合到一个云产品中。因此在设计时,资源的调度和生命周期管理过程需要细致调研、谨慎设计,尽可能地推动当前已有的流程和团队分工,向未来标准化、统一化方向进行演进。短期内应避免在构建平台的同时对现有流程和团队职责产生较大冲击和改变。

  • 私有云资源申请与应用部署结合:公有云重点偏向于资源申请落地,私有云在资源申请的基础上,需要关注解决应用运维问题,包括编排应用运营需求,如监控、日志、配置项等。

  • 数据租户间逻辑隔离+部分物理隔离:一套平台满足多环境、多部门应用部署,不同部门、环境间需要有效的数据隔离;除了常规逻辑隔离,金融系统在部分场景下需要同时满足物理隔离,因此实施时同样需要重点关注数据安全的有效性。

六、效果总结

通过新一代云运营(云管)平台建设,云运营平台和管理平台实现分离。运营平台面向资源使用者,主要提供资源运营和自服务能力,实现了提升服务化水平和降低运营成本的目标。管理平台面向各个管理者,针对各个资源建设独立、深度的管理平台,提高底层资源使用效率。这就解决了行业中云管规划混乱,运营和管理服务耦合,以及与数据中心管理分工不匹配、专业性要求不匹配的问题。

   云计算分Iaas、Paas、Saas三种服务模式,从企业用户角度出发,三种服务模式层层递进,用户的学习和使用成本逐渐降低,包括云服务后端的专业知识门槛要求越来越低,通过更多的开箱即用式服务,将传统系统、安全、网络等专业团队下沉,使其能力通过Paas、Saas平台进行输出,使得以往人肉服务转向云平台服务。由此带来的边际效应,现阶段已经明显显现,如降低和释放人力成本投入,推动现有人力向DevOps型、AIOps型人才升级。

参考业界数据中心发展趋势,从传统数据中心走向新型数据中心,绕不开“云”的建设;通过构建新一代云运营平台,应用运维一致向云看、向标准看、向自动化看,最终推动数据中心的转型升级,实现多云系统对接与数据开放治理,形成资源管理与应用部署管理结合的一体化云运营数据中心管理体系。

七、未来规划思路

软件设计是持续迭代的过程,云运营平台就是数据中心的软件载体。紧跟行业及社区技术发展趋势,通过合理地设计和实现,以标准化、自动化、智能化为方向,持续地推进云运营平台作为数据中心操作系统的形式迭代升级。在此过程中,不断激活组织活力,释放后台部门技术能力,组织结构向DevOps、AIops转型升级,以充分发挥云运营各项服务能力。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

9

添加新评论3 条评论

#liplli, gwm
3天前
底层的虚拟化平台怎么选择的。博云CMP作为统一的汇聚点,二次开发工作多大,对虚拟网络管理情况如何? paas如何和云管平台是如何关联的。

罗布泊@lipl 底层虚拟化使用openstack,二次开发工作量极大

5小时前
#shgd工程师, 某农商行
5天前
文章对云平台的规划设计讲的特别详细,很有指导借鉴意义,非常值得学习
#15305419779zxy网络工程师, 山东大正公司
6天前
对于金融行业来说,解决行业中云管规划混乱的问题,降低运营成本,提高资源利用率,赋能业务持续创新发展。既要保证运营平台的安全有效的运作,还要结合自身的长远规划和要求,从传统数据中心走向新型数据中心,绕不开“云”的建设,安全是第一位的,如何统筹安全与其他因素的和谐共处,是一个难以平衡的问题,本文对于关键问题的阐述,有独特的见解和解释。可以好好学习,结合自己的实际情况,来更好的运营和保证安全。
Ctrl+Enter 发表

云管平台选型优先顺序调查

发表您的选型观点,参与即得50金币。