faye
作者faye·2016-06-02 19:13
软件开发工程师·ABC

某能源勘探公司研究院大规模集群运维自动化的探索与实践

字数 4281阅读 1111评论 0赞 0

本文从东方公司研究院的IT现状和未来设备管理入手,对大规模集群自动化运维模式和工具进行分析,提出IT运维自动化概念。通过目前存在的问题,分析运维自动化的目标和方法,介绍建立运维自动化的步骤;以图解方式介绍自动化安装、自动化配置、自动化监控等使用情况,并据此说明未来大规模集群运维自动化的远景规划。 

1 前言 

IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的更高层次,也是未来的发展趋势与方向。 

2 IT运维现状介绍 

目前许多企业的计算机运维已经实现从人工运维到自动化管理,但我们的IT运维管理还只是处在“半自动化”状态。这种运维模式仍然是在用户使用计算机设备的过程中发现故障,之后通知运维人员,然后再由运维人员采取相应的补救措施。这种传统的、被动的、孤立的、半自动式的运维管理模式经常让运维部门疲惫不堪,主要表现在三个方面。 

2.1 低效率的手动运维模式 

在计算机运维过程中,只有当事件已经发生并已造成业务影响时,才能发现和着手处理,这种被动“救火”不但使运维人员终日忙碌,也使计算机运维本身质量难以提高,导致生产部门对计算机运维的服务不满意。目前运维人员日常大部分时间和精力都花在处理简单且重复的问题上,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,使运维人员的工作经常处于被动“救火”状态,不但事倍功半而且常会出现恶性连锁反应。 

2.2 缺乏高效的运维机制 

目前我们在运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,导致问题出现后很难快速、准确地找到根本原因,无法及时找到人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,在处理问题时不但欠缺规范化的解决方案,同时也缺乏全面的跟踪记录。 

2.3 缺乏高效的运维工具 

随着生产业务的不断发展,我们的生产系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让运维人员难以从容应对,即使加班加点地维护、部署、管理,也经常会因设备故障而导致业务中断,严重影响企业的正常运转。 

出现这些问题的部分原因是企业缺乏事件监控和诊断等运维工具,因为如果没有高效的工具支持,就很难让故障事件得到主动、快速处理。 

3 运维自动化的迫切需求 

尽管计算机运维管理的技术在不断进步,但实际上很多运维人员并没有从中真正解脱出来,原因在于目前的技术虽然能够获取计算机设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起,让人根本没办法判断问题的根源在哪里。另外,我们的更新管理绝大多数工作都是手工操作的,即使一个简单的系统变更或更新,也往往都需要运维人员逐一登录每台设备,然后再进行手工变更,当设备数量达到成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,这无疑会占用大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。 

随着计算机运维管理工作的复杂程度不断增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下的时代已经过去,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。例如,全天候自动检测与及时报警能实现计算机运维的“全天候无人值守”,这极大降低了运维人员的工作负担,而且通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此,对于越来越复杂的计算机运维来说,将纯粹的人工操作变为一定程度的自动化管理是必然的发展趋势。 

首先,运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。 

其次,运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具会潜移默化地提升业务保障能力。 

再者,一旦运维系统实行了自动化监控,运维人员的工作负荷就会减少,这也是一种降低经营成本的表现,图1为IT运维自动化的结构示意图。 

tu107.JPG

4 运维自动化的内容和工具 

4.1 运维自动化的内容 

计算机运维已经在风雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前—自动化,这是计算机技术发展的必然结果。现在计算机系统的复杂性已经客观上要求运维必须要实现数字化、自动化维护。 

所谓计算机运维管理自动化是指通过将日常运维中大量的重复性工作,如小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度,都要由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的计算机运维。简单地说,运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦监控系统发现性能超标或出现宕机现象,就会触发相关事件以及事先定义好的流程,自动启动故障响应和恢复机制。 

自动化工作平台还可帮助运维人员完成日常的重复性工作,提高运维效率。同时,运维的自动化还要求能够预测故障,在故障发生前能够报警,让运维人员把故障消除在萌芽状态,将所产生损失减到最低。图2所示为运维自动化与复杂度模型,从这个模型可以看出,运维复杂度随机器数量增多而增多,但在实施自动化运维后,其人力资源需求反而会减小。 

tu108.JPG

4.2 运维自动化的工具 

对于企业来说,要特别关注两类自动化工具:一是运维监控和诊断优化工具;二是运维流程自动化工具。 

图3为系统自动化安装流程图,图4为配置自动化的流程图,这两类工具主要应用于“四化”:1)监控自动化是指对重要的计算机设备实施主动式监控,如路由器、交换机、防火墙等,图5为监控自动化显示结果;2)配置变更检测自动化是指计算机设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助运维人员发现和维护配置;3)维护事件提醒自动化是指通过对计算机设备和应用活动的时时监控,当发生异常事件时,系统自动启动报警和响应机制,在第一时间通知相关责任人;4)系统健康检测自动化是指定期自动对计算机设备硬件和应用系统进行健康巡检,配合运维团队实施对系统的健康检查和监控。 

tu109.JPG

tu110.JPG

tu111.JPG

5 运维自动化的建立 

5.1 建立自动化运维管理平台 

运维自动化管理建设的第一步,是要先建立运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对计算机资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如在自定义周期内进行自动触发完成对运维的例行巡检,形成检查报告,包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。 

5.2 建立故障事件自动触发流程 

所有计算机设备在遇到问题时要会自动报警,无论是系统自动报警还是人员汇报故障,应以红色标识显示在运维屏幕上。然后运维人员只需要按照相关知识库的数据,一步步操作即可。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时,会及时触发相关事件,同时触发相关工单处理流程给相关运维人员。运维人员必须在指定时间内完成流程所规定的环节与工作,以提高运维解决问题的效率。 

5.3 建立规范的事件跟踪流程 

在运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,建立相应的运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立事件的规范化处理和跟踪指南,可以减少运维操作的随意性和强化运维执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。 

5.4 建立运维的关键流程 

设立运维关键流程,引入优先处理原则,是指要求技术管理层定义出运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有何影响和意义。同时,在设置自动化流程时,还需要引入优先处理原则,例行的事件按常规处理,特别事件要按优先级次序优先处理,也就是把事件细分为例行事件和例外关键事件。 

6 结束语 

随着东方公司研究院科研生产业务的飞速发展,IT基础设施规模在不断扩展且日趋复杂化,对IT系统的依赖性越来越高,其运维标准也随之不断提高,使得运维管理难度和压力大幅增强,传统运维管理模式已面临巨大挑战。实现IT运维的自动化管理,将IT运维中日常大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理过程,是IT运维的最高层次,也是未来的发展趋势。 

参考文献 

[1] 侯毅,孙波.IT运维管理解决方案[J].信息安全与技术,2011,11:58~60. 

[2] 杜成武.IT运维综合管理平台实现科技管理信息化[J].金融科技时代,2012,8:69~71. 

[3] 王庆霞.浅谈IT运维管理的应用与实践[J].信息安全与技术,2012,11:12~14. 

[4] 温长洋.防火墙运维自动化工具的设计与实现[J].中国金融电脑,2010,11:48~53. 

[5] 温超.电力信息系统运维管理自动化解决方案[J].山东电力技术,2012,1:77~80. 

[6] 徐红泉.调动自动化系统综合运维平台设计[J].计算机时代,2010,11:73~74. 

[7] 任义丽,王贤,朱建力等.中国石油数据中心ITIL落地探索与实践[J].信息系统工程,2012,11:51~53. 

本文转自《信息安全与技术》2014年第5期

作者:毛承国,张卫华,张进铎,马迅飞,史哲,方凯

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广