1、风险点的评估在自动化运维应正确评估,不能想当然和带有个人技术色彩;
2、自动化运维人为的定期检查必不可少,巡检报告的合理性和检查点很重要,如果流于形式,则巡检报告的设计是不科学的;
3、对于不适用于自动化检查的风险点,或者在自动化检查中出现过故障的风险点,应当及时停止自动化检查,改为手动检查,系统稳定是最高目的,自动化只是实现的工具,不能本末倒置。
抛砖引玉,欢迎大家交流!
首先可以看一下技术业界衡量公司运维自动化程度的一个标准:xx台服务器/工程师,对于Google, Facebook这些技术比较牛的公司,单个运维工程师负责的服务器一般在1w+,甚至会更多。这其中,自然离不开的一个特性,那就是运维高度自动化、智能化、平台化。
上图是一个经典的自动化运维体系构架。
大面上来讲,主要包括:cmdb,基础工具系列,业务工具系列,安全系列,质量体系等。
自动化运维会带来哪些好处呢?
提高效率
* 设备初始化自动化,服务器设备从入库上架、安装操作系统、初始化环境、进入资源池,全程自动无需人工干预
* 自动化重装系统,全程自动,最少500台/天的安装效率
在定位精准化方面,运维平台维护一张全局的拓扑架构图,任何的故障或者请求,可迅速的定位至某个IDC,采用强大的数据分析功能,可对问题原因进行推荐,提高负责人员定位问题的速度。
降低成本
降低资源成本,主要从两方面开展:
* 提高资源利用率。从设备、系统、网络、应用等多方面的协助优化,提高资源利用率。
* 降低资源闲置率。由于资源需求偏差较大而带来的资源闲置,会较大幅度提高资源成本,本平台提供更精准的评估资源需求,通过对业务的设备利用率历史数据进行数据建模与挖掘分析,针对新的业务,可以推荐更为合理精准的资源需求,从而降低资源浪费与闲置。
增强质量
通过构建质量体系,针对业务和资源提出特定的质量评价体系和标准,配以流程规范中的处罚与激励措施,提高业务和资源的质量,可以提高业务的可靠性,从而达到提高质量的目的。
收起