巡检的核心意义是什么?与监控的最大区别在哪里?

请问监控指标不断完善,未来还需要做日常巡检吗?巡检和监控的定位、客户诉求、价值分别是什么?

6回答

youki2008youki2008  系统架构师 , DDT
zhuhaiqiangKevenzhangtuomi2013等赞同了此回答
总的来说,巡检是对监控的一种补充。巡检是人工进行的例行检查,对机房数据中心的环境和设备进行检查登记,及时发现故障和隐患。监控系统是通过网络协议采取相关设备(例如服务器,存储,交换机,路由器,备份设备等)和系统(例如windows,Linux,Web,db,负载均衡等)的数据,根据设定的规则来判断...显示全部

总的来说,巡检是对监控的一种补充。
巡检是人工进行的例行检查,对机房数据中心的环境和设备进行检查登记,及时发现故障和隐患。监控系统是通过网络协议采取相关设备(例如服务器,存储,交换机,路由器,备份设备等)和系统(例如windows,Linux,Web,db,负载均衡等)的数据,根据设定的规则来判断是否存在故障或隐患。当时监控系统对网络和承载的系统依赖性比较大。如果一旦出现网络中断或抖动或者承载的系统出现故障很容易引起误报或失效。

收起
 2020-07-13
浏览1508
Kevenzhang 邀答
  • 感谢指点。我的理解是巡检的直接产物是巡检报告。请问从巡检形式上能否分为两类,自动巡检和人工巡检。自动巡检:通过配置巡检脚本获取数据。人工巡检:做一切视觉(有没有老鼠)嗅觉(有没有异味)的巡检,然后集中汇总在巡检报告。
    2020-07-22
hufeng719hufeng719  系统工程师 , 某钢铁企业
Kevenzhangzhuhaiqiang赞同了此回答
巡检在运维过程中发挥着非常重要的作用。且不说现在的自动化运维各项监控指标还不完善,有些监控指标还无法获取真实有效数据,只是存在理论上的可实现,还没有落地。到目前为止,个人感觉,监控无法完全替代巡检。原因如下:1、如果遇到特殊情况,比如网络中断、监控服务器故障等等,监...显示全部

巡检在运维过程中发挥着非常重要的作用。且不说现在的自动化运维各项监控指标还不完善,有些监控指标还无法获取真实有效数据,只是存在理论上的可实现,还没有落地。到目前为止,个人感觉,监控无法完全替代巡检。原因如下:
1、如果遇到特殊情况,比如网络中断、监控服务器故障等等,监控获取不到数据。无法确认机房设备是否正常。
2、即使监控指标足够多,如果出现问题,被监控主机死机、服务挂起等远程无法响应的情况怎么办?
3、有些情况是监控无法做到的。比如:机房进老鼠、灰尘多、机房制冷设备异常导致高温等,都需要现场处理。定期巡检可以发现问题并及时进行干预。

收起
 2020-07-13
浏览1487
Kevenzhang 邀答
张文正张文正  系统工程师 , dcits
Kevenzhang赞同了此回答
巡检是对监控的最大补充,有些隐藏的问题是监控所监控不到的,巡检实际上对预防性维护,巡检过程中能发现很多问题是监控所做不到的,特别是一些应用软件等方面的,还有一些系统方面的等等吧!所以日常定期巡检很必要啊!...显示全部

巡检是对监控的最大补充,有些隐藏的问题是监控所监控不到的,巡检实际上对预防性维护,巡检过程中能发现很多问题是监控所做不到的,特别是一些应用软件等方面的,还有一些系统方面的等等吧!所以日常定期巡检很必要啊!

收起
 2020-07-22
浏览1451
Kevenzhang 邀答
大白菜00大白菜00  系统架构师 , 亚太财产保险有限公司
Kevenzhang赞同了此回答
监控是基于规则,巡检是基于人的经验,互补显示全部

监控是基于规则,巡检是基于人的经验,互补

收起
 2020-07-15
浏览1485
Kevenzhang 邀答
he7yonghe7yong  研发工程师 , Canway
巡检管理是一项偏管理的工作,也业务运行保障的重要支撑,涉及巡检人员安排,巡检结果复盘,等等。巡检工具是支持巡检管理工作的,让巡检更加的高效;监控更多的是一个工具,他用来及时的发现问题保障系统稳定运行,巡检做和不做和监控系统是否全面没有关系;因为他们都是用来保障稳定运行...显示全部

巡检管理是一项偏管理的工作,也业务运行保障的重要支撑,涉及巡检人员安排,巡检结果复盘,等等。
巡检工具是支持巡检管理工作的,让巡检更加的高效;
监控更多的是一个工具,他用来及时的发现问题保障系统稳定运行,巡检做和不做和监控系统是否全面没有关系;
因为他们都是用来保障稳定运行的,如果说有工具和管理体系让系统已经足够稳定,那么人工巡检管理的工作可能会淘汰掉。

收起
 2020-08-10
浏览1429
Kevenzhang 邀答
summitsummit  系统架构师 , 城商行
监控软件覆盖的范围全不全是首要问题,如果监控软件覆盖范围全的话,会减轻日常巡检的工作量。但是一般商业银行都覆盖不全,目前数据中心的监控涉及的方面比较多,一个监控软件厂商是不能都覆盖全的,比如数据中心基础设施监控(空调、动力、UPS、供电等)、基础环境监控(服务器、操作...显示全部

监控软件覆盖的范围全不全是首要问题,如果监控软件覆盖范围全的话,会减轻日常巡检的工作量。但是一般商业银行都覆盖不全,目前数据中心的监控涉及的方面比较多,一个监控软件厂商是不能都覆盖全的,比如数据中心基础设施监控(空调、动力、UPS、供电等)、基础环境监控(服务器、操作系统、数据库、中间件、虚拟化、存储、SAN、网络设备、安全设备等)、应用监控(APM)、网络监控(NPM)、链路监控(波峰设备等)等几个大的监控平台,还有比如基于某些特定产品的监控(vmware的operationmanger,存储的TPCC等)。
总体来说监控平台就是系统告警的时候第一时间通过短信或者邮件等方式及时的通知到相关负责人及时处理问题。具体的问题分析还需要人为的进行问题分析和故障定位,日常巡检就是把这些监控平台的数据进行更深入的关联分析,检查监控平台无法监控的内容。

收起
 2020-08-06
浏览1381
Kevenzhang 邀答

提问者

Kevenzhang运维工程师, AUTO

日志分析平台选型优先顺序调研

发表您的选型观点,参与即得50金币。

问题状态

  • 发布时间:2020-07-11
  • 关注会员:7 人
  • 问题浏览:2843
  • 最近回答:2020-08-10