怎样解决精准定位问题?

在多中心的环境中怎样解决在问题或现象的精准定位?
例如:
问题:某一个设备损坏导致业务错误信息或业务终止,在远端的运维人员可以准确的知道是哪一个机房的什么设备损坏。
现象:在业务运行中出现的慢、卡、闪断等现象时,在远端的运维人员可以可以知道是设备、操作系统、软件或架构的原因导致业务体验不好现象。

参与35

5同行回答

ipshyfipshyf系统架构师浪潮商用机器
其实目前很多成熟的数据中心对于物理硬件错误的检测做的还是不错的。关键是这些运维怎么和业务联系起来。比如:基于阈值的监控(例如:Zabbix)告警太多误报率高,基于规则的监控(ELK)人工定义规则工作量大等等,都是令人困扰的问题。其实现在国内已经一些初创公司在做AIOPS方面的产品...显示全部

其实目前很多成熟的数据中心对于物理硬件错误的检测做的还是不错的。关键是这些运维怎么和业务联系起来。比如:基于阈值的监控(例如:Zabbix)告警太多误报率高,基于规则的监控(ELK)人工定义规则工作量大等等,都是令人困扰的问题。
其实现在国内已经一些初创公司在做AIOPS方面的产品,通过机器学习达到自动识别业务拓扑关系,自动完成故障告警定位,合并告警信息形成单一告警链。

收起
硬件生产 · 2018-01-23
浏览2304

提问者

cft18
信息技术经理中国电信集团系统集成有限责任公司
擅长领域: 云计算存储容器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2018-01-16
  • 关注会员:8 人
  • 问题浏览:6313
  • 最近回答:2018-02-02
  • X社区推广