如何实现故障的快速定位和提前预警?

如果在业务高峰时段出现异常,没有太多时间给管理员进行故障排查的。一些应急处置的手段可能会破坏故障现场,使故障难以重现及定位。怎样才能在异常出现时或出现前准确定位故障点?

1回答

邓毓邓毓  系统工程师 , 江西农信
dingchuan53Mr神秘人linjh等赞同了此回答
我的想法是建立运维大数据平台,实时抓取不同数据源的监控数据,业务性能、网络性能、基础性能、事件、告警、日志等,一方面辅助运维人员在统一的视图进行问题排查与定位,另一方面,能够在统一的平台保留足够多的证据,为事后的问题原因分析,做数据支撑。建立起的运维大数据平台更进...显示全部

我的想法是建立运维大数据平台,实时抓取不同数据源的监控数据,业务性能、网络性能、基础性能、事件、告警、日志等,一方面辅助运维人员在统一的视图进行问题排查与定位,另一方面,能够在统一的平台保留足够多的证据,为事后的问题原因分析,做数据支撑。
建立起的运维大数据平台更进一步的思路是,利用先进的算法,AIOPS、机器学习等,智能结合不同的数据源,进行数据挖掘,进行根因分析,给出一定的建议,辅助运维。

收起
 2018-12-28
浏览673

提问者

linjh系统工程师, 兴业证券

问题状态

  • 发布时间:2018-12-28
  • 关注会员:2 人
  • 问题浏览:1379
  • 最近回答:2018-12-28
  • 关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
    © 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30