如何解决一体化运维实现的几个关键问题?

在系统运维过程中,有几个问题是比较可怕的。

1 根本没有感知到问题的发生。

企业的设备五花八门,系统纷繁复杂。企业往往从各个层面去抓取日志信息,抓的很多很全。又是从硬件层,又是从操作系统层,又是从中间件层,又是从应用层。实现的手段有探针、有抓包,各式各样。看起来这个监控做的好啊,全啊。但是有几个人能知道每一个一个微小的监控参数的变化意味着什么,每一个监控参数的前后联系以及整体的体系框架是什么样的。

Q:所以如何缕清楚所有层面这些监控信息的内在联系以及他们对于应用系统的支撑体系架构,非常非常重要。不然的话,即使再全的监控,第一、你的运维人员读不懂。第二、可能会存在致命的死角。

2 感知到问题的发生,但是找不到问题的根源。

支撑企业应用的基础IT系统不是一个两个,而是一系列。有服务器、网络设备、广交设备、虚拟化设备、存储设备等等。他们之间是通过各种有机的方式连接到一起的。往往当你监控到一个问题已经发生了,但是如果你却反对他们之间的联系的足够了解。那你是无法找到导致问题发生的根本原因。典型的比如性能问题。

Q:如何能够将架构师脑袋里面的架构挖到桌面上来,放进一体化运维流程或者平台中去。至关重要。

3 问题真正发生时,所有人都乱成一锅粥,领导急头白脸,员工像热锅上的蚂蚁。都不知道下一步该干什么。

问题没有发生时,都tm的在安然入睡。检查的时候随便应付应付,吹牛逼的时候吹的什么都有,什么应急管理,什么安全管理,什么...,一应俱全。真到出了事儿,全傻了。所有人无从下手。喊来一堆厂商,厂商一个个先做的事情就是把自己摘干净,各说各的。没人会先想着帮你解决问题为第一位。

Q:如何把诊断问题以及解决问题的流程及方法固化到一体化运维管理平台中去。至少把定位问题的方法和思路融入到一体化运维平台中去。

参与4

1同行回答

liuijingliuijingit技术咨询顾问IBM
可见您在运维工作已浸淫多年,深知其中滋味。技术和管理流程是解决运维问题的两大因素,通常的技术难题由厂商或服务商的大拿搞定,复杂的跨平台的问题,特别是您提到的性能问题就需要特殊手段了,IBM实施的一些整体运维方案也会遇到这样的问题,基于对客户的一站式服务承诺,我们采取...显示全部

可见您在运维工作已浸淫多年,深知其中滋味。

技术和管理流程是解决运维问题的两大因素,通常的技术难题由厂商或服务商的大拿搞定,复杂的跨平台的问题,特别是您提到的性能问题就需要特殊手段了,IBM实施的一些整体运维方案也会遇到这样的问题,基于对客户的一站式服务承诺,我们采取动用了中国本地跨厂商的(原厂商)专家会诊,和全球实验室联合补丁开发(IBM和网络,软件,操作系统,虚拟化,负载均衡等主流厂商有不同模式的全球支持协议或渠道)。但说实话,即使技术资源用到极致也不是都能手到病除的,这就要借助管理手段进行问题转换和风险控制,目标不变,业务连续稳定运行,但流程或者架构要做调整。

收起
IT咨询服务 · 2016-03-04
浏览1089

提问者

haizdl
haizdl101634
技术经理大连
擅长领域: 灾备存储服务器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2016-03-02
  • 关注会员:3 人
  • 问题浏览:4058
  • 最近回答:2016-03-04
  • X社区推广