系统集成系统运维运维管理精准定位

怎样解决精准定位问题？

在多中心的环境中怎样解决在问题或现象的精准定位？
例如：
问题：某一个设备损坏导致业务错误信息或业务终止，在远端的运维人员可以准确的知道是哪一个机房的什么设备损坏。
现象：在业务运行中出现的慢、卡、闪断等现象时，在远端的运维人员可以可以知道是设备、操作系统、软件或架构的原因导致业务体验不好现象。

关注8

参与35

5同行回答
全部行业
全部行业 软件开发 互联网服务 银行 硬件生产 IT分销/经销
|
按赞同排序
按时间排序

haizdl技术经理大连

目前的监控和运维似乎更注重横向的工作，比如网络层、应用层、数据层、存储层。但是忽视了业务在这几个层面的纵向分布及规律，往往业务出问题之后，会调集所有层面的人员一一进行排查，可能有的问题很快定位了，但是有些问题可能找了一大圈也定位不了问题在哪里。

其实本质上我认为是因为我们缺少通过各个层面的逻辑关系及数据分析建立起来的以业务为导向的IT环境的主动性发现体系。比如我们可能不曾关注过一个业务上的变化导致的网络、应用、数据、存储各个层面的数据波动状态，也不曾关注过应用层面的读写究竟影响到了哪些足够细粒度的数据变化。

解决这个问题，首先要有一个标准化的规划逻辑。没有逻辑的标准化，那么IT里面的每一个模块儿之间可能也就失去了标准化的逻辑关系定位。同时一些先进的工具、手段、方法也就无法发挥更好的作用。其次，要有一个不断的配置细化优化的过程在运维生命周期的始终。再有，我们需要借助一些工具来实现。

收起

银行 · 2018-01-18

查看赞同的人

ipshyf系统架构师浪潮商用机器

其实目前很多成熟的数据中心对于物理硬件错误的检测做的还是不错的。关键是这些运维怎么和业务联系起来。比如：基于阈值的监控（例如：Zabbix）告警太多误报率高，基于规则的监控（ELK）人工定义规则工作量大等等，都是令人困扰的问题。
其实现在国内已经一些初创公司在做AIOPS方面的产品，通过机器学习达到自动识别业务拓扑关系，自动完成故障告警定位，合并告警信息形成单一告警链。

收起

硬件生产 · 2018-01-23

查看赞同的人