自动化运维运行结果如何更准确灵活地监控和判断?

运维脚本或程序是不可能完全准确地反馈的,那么自动化运维运行结果如何更准确灵活地监控和判断?显示全部

运维脚本或程序是不可能完全准确地反馈的,那么自动化运维运行结果如何更准确灵活地监控和判断?

收起
参与15

查看其它 2 个回答galaxy1975的回答

galaxy1975galaxy1975  系统架构师 , 自动化运维专家
  1. 先说一个动作的验证,例如通过ansible启动一个系统服务,如果系统服务脚本写的比较垃圾,就算是启动失败了,脚本也返回成功,那么ansible就会返回成功。这就叫做脚本的误判。 在自动化运维的实现中,需要尽可能多的验证、修改这样的缺陷脚本,确保动作的返回值是准确的。
    如果希望更加准确的去验证,那就验证动作的结果,例如,如果是创建一个文件,那就去检查一下这个文件是否存在了,如果是启动web服务,那就检查80端口是否监听了。
  2. 在说整个自动化运维动作的大闭环,在运维过程中,通常会提到“开门巡检、变更巡检、上线巡检”这样的话术,当然,有些地方可能叫另一个名次,这个实际上就是通过业务预埋的检查点,测试程序来访问某个特定的URL(或其他手段),来验证业务是否正常,例如通过url访问web服务器,到数据库中取出一个测试数据,这样一个验证过程就验证了web、业务基本逻辑、数据库这几个组件都是OK的。 那么,在相对较大的自动化运维动作执行之后,可以执行这样的“巡检”。
IT咨询服务 · 2018-09-27
浏览2185

回答者

galaxy1975
系统架构师自动化运维专家

galaxy1975 最近回答过的问题

回答状态

  • 发布时间:2018-09-27
  • 关注会员:5 人
  • 回答浏览:2185
  • X社区推广