在系统运维过程中,有几个问题是比较可怕的。
1 根本没有感知到问题的发生。
企业的设备五花八门,系统纷繁复杂。企业往往从各个层面去抓取日志信息,抓的很多很全。又是从硬件层,又是从操作系统层,又是从中间件层,又是从应用层。实现的手段有探针、有抓包,各式各样。看起来这个监控做的好啊,全啊。但是有几个人能知道每一个一个微小的监控参数的变化意味着什么,每一个监控参数的前后联系以及整体的体系框架是什么样的。
Q:所以如何缕清楚所有层面这些监控信息的内在联系以及他们对于应用系统的支撑体系架构,非常非常重要。不然的话,即使再全的监控,第一、你的运维人员读不懂。第二、可能会存在致命的死角。
2 感知到问题的发生,但是找不到问题的根源。
支撑企业应用的基础IT系统不是一个两个,而是一系列。有服务器、网络设备、广交设备、虚拟化设备、存储设备等等。他们之间是通过各种有机的方式连接到一起的。往往当你监控到一个问题已经发生了,但是如果你却反对他们之间的联系的足够了解。那你是无法找到导致问题发生的根本原因。典型的比如性能问题。
Q:如何能够将架构师脑袋里面的架构挖到桌面上来,放进一体化运维流程或者平台中去。至关重要。
3 问题真正发生时,所有人都乱成一锅粥,领导急头白脸,员工像热锅上的蚂蚁。都不知道下一步该干什么。
问题没有发生时,都tm的在安然入睡。检查的时候随便应付应付,吹牛逼的时候吹的什么都有,什么应急管理,什么安全管理,什么...,一应俱全。真到出了事儿,全傻了。所有人无从下手。喊来一堆厂商,厂商一个个先做的事情就是把自己摘干净,各说各的。没人会先想着帮你解决问题为第一位。
Q:如何把诊断问题以及解决问题的流程及方法固化到一体化运维管理平台中去。至少把定位问题的方法和思路融入到一体化运维平台中去。