如果监控做的足够的完善,自动化巡检还有价值么?

之所以要做巡检,是不是因为很多指标无法采集和监控到,需要人去检查?如果指标都可以采集到,而且都可以进行告警。自动巡检还有什么意义呢?我能想到几点,但感觉都不是有很大的意义:1、现有的指标告警基于规则,不能够发现潜在问题,而且信息比较分散,需要人基于巡检报告去做分析从而挖...显示全部

之所以要做巡检,是不是因为很多指标无法采集和监控到,需要人去检查?
如果指标都可以采集到,而且都可以进行告警。自动巡检还有什么意义呢?我能想到几点,但感觉都不是有很大的意义:
1、现有的指标告警基于规则,不能够发现潜在问题,而且信息比较分散,需要人基于巡检报告去做分析从而挖掘出深层次的潜在问题。
2、不是所有指标都需要做监控和告警,否则一是频繁的采集指标和告警会有性能问题,二是不重要的指标告警会打扰到运维人员。很多指标每天进行一次巡检来分析一下就可以了。
大家对于自动化巡检怎么看呢?

收起
参与26

查看其它 7 个回答hufeng719的回答

hufeng719hufeng719联盟成员系统工程师某钢铁企业

首先要弄清楚监控与巡检的区别:单从字面理解,监控毕竟只是监控,不是自动化运维,只能预警,不能干预。只能通过采集到的数据进行人为分析(或者机器学习)汇总结果,不能完全的去替代人的操作。就拿我们生产环境而言,可以监控故障,预测设备运行状况。但是真出现问题,不能轻易用系统人为修改参数后去自动控制生产,这会存在很大的安全隐患。如果真感染病毒,会对生产造成非常严重的事故。比如煤气阀门的控制等等。  举这个例子就是想说明,监控只是辅助手段无法完全替代人为的巡检。
巡检在运维过程中发挥着非常重要的作用。且不说现在的自动化运维各项监控指标还不完善,有些监控指标还无法获取真实有效数据,只是存在理论上的可实现,还没有落地。到目前为止,个人感觉,监控无法完全替代巡检。原因如下:
1、如果遇到特殊情况,比如网络中断、监控服务器故障等等,监控获取不到数据。无法确认机房设备是否正常。
2、即使监控指标足够多,如果出现问题,被监控主机死机、服务挂起等远程无法响应的情况怎么办?
3、有些情况是监控无法做到的。比如:机房进老鼠、灰尘多、机房制冷设备异常导致高温等,都需要现场处理。定期巡检可以发现问题并及时进行干预。

能源采矿 · 2020-08-26

回答者

hufeng719
系统工程师某钢铁企业
擅长领域: 数据库存储服务器

hufeng719 最近回答过的问题

回答状态

  • 发布时间:2020-08-26
  • 关注会员:10 人
  • 回答浏览:2650
  • X社区推广