其实目前很多成熟的数据中心对于物理硬件错误的检测做的还是不错的。关键是这些运维怎么和业务联系起来。比如:基于阈值的监控(例如:Zabbix)告警太多误报率高,基于规则的监控(ELK)人工定义规则工作量大等等,都是令人困扰的问题。其实现在国内已经一些初创公司在做AIOPS方面的产品...
显示全部其实目前很多成熟的数据中心对于物理硬件错误的检测做的还是不错的。关键是这些运维怎么和业务联系起来。比如:基于阈值的监控(例如:Zabbix)告警太多误报率高,基于规则的监控(ELK)人工定义规则工作量大等等,都是令人困扰的问题。
其实现在国内已经一些初创公司在做AIOPS方面的产品,通过机器学习达到自动识别业务拓扑关系,自动完成故障告警定位,合并告警信息形成单一告警链。
收起