nkj827
作者nkj827·2018-10-18 10:18
项目经理·长春长信华天

企业级自动化运维平台方案设计线上探讨活动问答集锦

字数 1886阅读 4566评论 1赞 7

随着企业信息化的不断发展,运维人员需要面对越来越复杂的业务和越来越多样化的用户需求,不断扩展的应用需要越来越合理的模式来保障运维服务能灵活便捷、安全稳定地持续。自动化作为其重要属性之一已经不仅仅只是代替人工操作,更重要的是深层探知和全局分析,关注的是在当前条件下如何实现性能与服务最优化,同时保障投资收益最大化。通过自动化运维能最大限度地在更少的维修时间内实现运维目标,提高运维服务质量。因此,对于越来越复杂的运维来说,将人工操作逐渐改变为自动化管理是一个重要发展趋势。

企业在发展,运维工作量在不断的增加,企业的运维工作面临着制度、技术路线,运维工具的选择等方方面面的问题需要解决,为了帮助大家解决这些问题,社区诚邀大家参与到活动中,一起对企业中的自动化运维平台的方案设计进行深入交流。

1.自动化运维工具选择时,有哪些因素需要考虑?

在选择自动化运维工具时应该从以下几个方面考量:

一是自动化运维工具的成熟度,即在业界的受众面。这里无论是对商用的还是开源的都可以从这个角度进行评估;
二是自动化运维工具的功能能否满足运维需求;
三是如果是选择开源的自动化运维工具还要考虑工具的技术栈和公司人员的技术栈是否匹配;
四是自动化运维工具在安全方面是否有良好的支持;
五是自动化运维工具在工作过程中对主机性能的影响,尤其还要测试在并发大的时候,对运维工具平台自身服务端的压力;
六是还要考虑选择的自动化运维工具是否满足公司后续技术栈的发展需要。

2.现阶段的自动化运维软件能够把故障定位精确到什么程度?

一个小小的故障出现必将引起数十个甚至上百的设备报警,那么现阶段的自动化运维软件能够把故障定位精确到什么程度?还是仅仅能做到提示,真正的故障原因还需要运维人员自己去手动找?

故障定位算法采用机器学习中的二叉决策树的方式实现:

一方面希望将故障所产生的所有告警信息整合为一条信息,减少告警量;
另一方面希望能够智能定位出故障点,减少工程师排查问题的时间,并引入自动化处理。

以网络故障原因定位为例,实现上述目标需要三步:

第一步:将问题排障过程的经验提炼成二叉决策树;
第二步:将告警信息按照时间分片算法进行分类分组;
第三步:将分组的告警信息输出给决策树进行自动推理输出推理结果。

智能定位出故障点,尽可能减少人工参与,提高运维效率。

3.自动化运维建设需要经历哪几个阶段?各阶段如何递进?

自动化运维建设一般分三个阶段

第一阶段:业务快速发展,服务器大量扩增,运维人员少,系统状态实时监控就无法兼顾,面对上述问题,采用IBM-Tivoli 产品实现自动化监控。
第二阶段,面对业务快速部署需求,采用了IBM PureApplication一体机实现了应用快速部署,采用PowerVC、VMware等技术实现了虚机自动发布。
第三阶段,面对大量信息系统配置变更影响需求,开始实现CMDB自动采集功能。只是列举一部分,自动化运维这条路是永无止境,需着技术发展,自动化运维将是越来越普及的

4.自动化运维风险如何规避?权限如何控制?

自动化运维几个可能存在的风险:

1、自动化运维的管理账号权限设置是否合理,该账号是否限定了权限,能不能通过该账号重启一些重要服务
2、自动化运维的交互界面,对一些高危动作,如执行rm *,是否做了二次提醒和密钥验证
3、需要使用自动化运维平台实施的大规模变更,是否有完善的审核制度。
4、对于自动化运维平台本身程序版本、运维策略,是否验证过备份和恢复。

5.自动化部署和发布有哪些流程?

自动化部署和发布有哪些流程?同时还需要避免大规模的错误。

自动化部署,每个企业都是不一样的。目前大多企业还是停留在应用部署,业务停止的级别上,就是停止当前应用,重新发布。对于一些走在前面的行业,业务场景要求业务是不能中断的,大多还是逐步发布或更新。这样在有问题的时候回退和影响面影响都会比较小。

一般自动化发布流程是开发环境发布----测试环境发布---生产预发布----生产发布代码管理大多都有统一的管理平台,诸如svn或git 进行。

6.运维人员不足的情况下,如何保证自动化运维的可靠性?

自动化运维几乎不需要手动工作,这也就意味着它不仅可以提高产出,还可以将运维人员从复杂的传统运维工作中释放出来,将其知识和技能应用于更有价值的工作和任务上。此外,通过减少周转时间,每天可处理工作量也提高了。

运维常常包括一些重复的但完全必要的工作,这也就是为什么它容易出错。当人为因素从这个过程中消除时,那些昂贵的人为错误也自然消失了,这对于具有多个操作系统的大型网络尤其有用。自动化运维可以明显提高可靠性,减轻运维人员繁琐的手动任务。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

7

添加新评论1 条评论

wuwenpinwuwenpin软件开发工程师南京
2018-10-18 21:58
学习,实用。
Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

相关文章

相关问题

相关资料

X社区推广