首先要弄清楚监控与巡检的区别:单从字面理解,监控毕竟只是监控,不是自动化运维,只能预警,不能干预。只能通过采集到的数据进行人为分析(或者机器学习)汇总结果,不能完全的去替代人的操作。就拿我们生产环境而言,可以监控故障,预测设备运行状况。但是真出现问题,不能轻易用系统人为修改参数后去自动控制生产,这会存在很大的安全隐患。如果真感染病毒,会对生产造成非常严重的事故。比如煤气阀门的控制等等。 举这个例子就是想说明,监控只是辅助手段无法完全替代人为的巡检。
巡检在运维过程中发挥着非常重要的作用。且不说现在的自动化运维各项监控指标还不完善,有些监控指标还无法获取真实有效数据,只是存在理论上的可实现,还没有落地。到目前为止,个人感觉,监控无法完全替代巡检。原因如下:
1、如果遇到特殊情况,比如网络中断、监控服务器故障等等,监控获取不到数据。无法确认机房设备是否正常。
2、即使监控指标足够多,如果出现问题,被监控主机死机、服务挂起等远程无法响应的情况怎么办?
3、有些情况是监控无法做到的。比如:机房进老鼠、灰尘多、机房制冷设备异常导致高温等,都需要现场处理。定期巡检可以发现问题并及时进行干预。