怎样解决精准定位问题?

在多中心的环境中怎样解决在问题或现象的精准定位?
例如:
问题:某一个设备损坏导致业务错误信息或业务终止,在远端的运维人员可以准确的知道是哪一个机房的什么设备损坏。
现象:在业务运行中出现的慢、卡、闪断等现象时,在远端的运维人员可以可以知道是设备、操作系统、软件或架构的原因导致业务体验不好现象。

参与35

5同行回答

haizdlhaizdl技术经理大连
目前的监控和运维似乎更注重横向的工作,比如网络层、应用层、数据层、存储层。但是忽视了业务在这几个层面的纵向分布及规律,往往业务出问题之后,会调集所有层面的人员一一进行排查,可能有的问题很快定位了,但是有些问题可能找了一大圈也定位不了问题在哪里。其实本质上我认为...显示全部

目前的监控和运维似乎更注重横向的工作,比如网络层、应用层、数据层、存储层。但是忽视了业务在这几个层面的纵向分布及规律,往往业务出问题之后,会调集所有层面的人员一一进行排查,可能有的问题很快定位了,但是有些问题可能找了一大圈也定位不了问题在哪里。

其实本质上我认为是因为我们缺少通过各个层面的逻辑关系及数据分析建立起来的以业务为导向的IT环境的主动性发现体系。比如我们可能不曾关注过一个业务上的变化导致的网络、应用、数据、存储各个层面的数据波动状态,也不曾关注过应用层面的读写究竟影响到了哪些足够细粒度的数据变化。

解决这个问题,首先要有一个标准化的规划逻辑。没有逻辑的标准化,那么IT里面的每一个模块儿之间可能也就失去了标准化的逻辑关系定位。同时一些先进的工具、手段、方法也就无法发挥更好的作用。其次,要有一个不断的配置细化优化的过程在运维生命周期的始终。再有,我们需要借助一些工具来实现。

收起
银行 · 2018-01-18
浏览2397
ipshyfipshyf系统架构师浪潮商用机器
其实目前很多成熟的数据中心对于物理硬件错误的检测做的还是不错的。关键是这些运维怎么和业务联系起来。比如:基于阈值的监控(例如:Zabbix)告警太多误报率高,基于规则的监控(ELK)人工定义规则工作量大等等,都是令人困扰的问题。其实现在国内已经一些初创公司在做AIOPS方面的产品...显示全部

其实目前很多成熟的数据中心对于物理硬件错误的检测做的还是不错的。关键是这些运维怎么和业务联系起来。比如:基于阈值的监控(例如:Zabbix)告警太多误报率高,基于规则的监控(ELK)人工定义规则工作量大等等,都是令人困扰的问题。
其实现在国内已经一些初创公司在做AIOPS方面的产品,通过机器学习达到自动识别业务拓扑关系,自动完成故障告警定位,合并告警信息形成单一告警链。

收起
硬件生产 · 2018-01-23
浏览2291
asdf-asdfasdf-asdf研究学者cloudstone
硬件监控平台 和统一事件平台 还有 事件分析平台 告警平台 这些你都要做到业务数据逻辑目前看到这样的技术只在大型企业中 构建成本太高 而且必须自开发能力非常强 否则无法完成 多个平台数据业务对接和处理 造成项目失败...显示全部

硬件监控平台 和统一事件平台 还有 事件分析平台 告警平台 这些你都要做到业务数据逻辑
目前看到这样的技术只在大型企业中 构建成本太高 而且必须自开发能力非常强 否则无法完成 多个平台数据业务对接和处理 造成项目失败

收起
软件开发 · 2018-01-17
浏览2405
  • 有没有关于CMDB和日志分析的资料?
    2018-01-18
  • cmdb 和日志分析 , cmdb目前有自动化采集的和补充录入的 , 日志分析 这个复杂了 日志平台一堆 的分析需要甲方自己做 过滤器
    2018-01-23
tt_45tt_45技术经理eenese
设备的物理部件故障和独立的性能检测,绝大部分监控平台都能准确监控,难点在于软故障和关联分析。所以要准确定位问题,不仅需要监控的颗粒度要小,而且反馈的日志需要足量和详细,设备间和系统间的校时需要一致。这样可以把所有日志(软硬件)统一收集并进行关联分析(或使用大数据手段...显示全部

设备的物理部件故障和独立的性能检测,绝大部分监控平台都能准确监控,难点在于软故障和关联分析。所以要准确定位问题,不仅需要监控的颗粒度要小,而且反馈的日志需要足量和详细,设备间和系统间的校时需要一致。这样可以把所有日志(软硬件)统一收集并进行关联分析(或使用大数据手段),这样定位软故障是精确的。

收起
互联网服务 · 2018-01-18
浏览2323
+zhpeng01可以联系帮忙解决问题。+zhpeng01可以联系帮忙解决问题。系统工程师信息系统有限公司
现在有很多的整体运维系统可以解决这个问题,因为整体运维系统可以监控从系统底层,硬件层到应用语句级别的问题,这样出现问题就会马上发现。显示全部

现在有很多的整体运维系统可以解决这个问题,因为整体运维系统可以监控从系统底层,硬件层到应用语句级别的问题,这样出现问题就会马上发现。

收起
IT分销/经销 · 2018-02-02
浏览2103

提问者

cft18
信息技术经理中国电信集团系统集成有限责任公司
擅长领域: 云计算存储容器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2018-01-16
  • 关注会员:8 人
  • 问题浏览:6272
  • 最近回答:2018-02-02
  • X社区推广