活动简介
随着银行业务的快速发展,支撑业务的IT基础设施的变化节奏也大大加快。运维团队担负着对IT基础设施运维的重要使命,核心任务是保障生产安全运营,并提高软硬件环境的交付质量。
运维管理规模的不断扩大,运维人员的不断扩充,使我们的日常运维工作面临更大的压力与风险。
在很长一段时间里,应用运维尝试通过脚本辅助来提升工作效率,但仍然面临着繁重的工作压力:
(1)、管理工作繁重,所管理的资源类型和数量众多,但是缺乏一个准确的整体资源视图。
(2)、生产操作以手工操作为主,在手工操作时存在一些无意的误操作,给生产环境造成操作风险。
(3)、日常巡检仍需由专人负责应用系统相关的日报生成与发布。数据采集缺少统一的管理界面,数据分析工作依赖于管理员个人经验进行,出现问题缺少记录与跟踪。
在运维管理工作中就会出现以下几个主要问题:
(1)、手工操作的风险不可控:日常巡检、服务请求、问题查询都通过登录生产主机进行操作。
(2)、运维工作及时性差异:各运维人员管辖的应用系统、主机数量多,巡检工作以手工为主,无法及时有效地在系统开门前做全面巡检。
(3)、工作规范性不强:新员工对现有的工作制度、工作流程需要一个逐步适应和熟悉的过程。不同人员对应用系统的运维管理工作细致程度存在差异,缺少统一标准。
面临以上问题,企业需要建设一个服务于运维人员的统一管理工作平台——应用自动化运维系统,用来进行日常的生产系统操作任务,隔离运维人员与生产系统的直接接触。
为了帮助大家解决应用自动化运维系统建设中架构设计以及流程梳理的问题,社区邀请了某股份制商业银行运维自动化专家分享了《某银行企业级应用运维自动化关键设计思路与技术方案实现分享》,并组织本次线上交流,希望可以为大家梳理建设思路,提供参考建议,解决实际问题。
活动资料
某银行企业级应用运维自动化关键设计思路与技术方案实现分享
(一)实现调度自动化
从以前依赖手工的实现转换到通过自动化的工具来实现变更与日常巡检。
(二)实现日常运维工作标准化、规范化
对现有的运维工作事项(包括变更、巡检等)进行梳理和优化,建立标准化的应用自动化运维工作项,以促进日常运维工作的规范化。
(三)实现生产配置统一视图
对全行的服务器、存储、软件资源进行集中管理,形成资源池,集中管理核心的配置信息和关系。
对资源池中各种资源的配置信息进行自动化采集和更新,随时掌握其可用状态。建立资源的整体视图,并通过可视化视图直观展现资源之间(如宿主机与之上运行的虚拟机)的依赖关系以及与业务的逻辑关系。