如果在业务高峰时段出现异常,没有太多时间给管理员进行故障排查的。一些应急处置的手段可能会破坏故障现场,使故障难以重现及定位。怎样才能在异常出现时或出现前准确定位故障点?
我的想法是建立运维大数据平台,实时抓取不同数据源的监控数据,业务性能、网络性能、基础性能、事件、告警、日志等,一方面辅助运维人员在统一的视图进行问题排查与定位,另一方面,能够在统一的平台保留足够多的证据,为事后的问题原因分析,做数据支撑。建立起的运维大数据平台更进一步的思路是,利用先进的算法,AIOPS、机器学习等,智能结合不同的数据源,进行数据挖掘,进行根因分析,给出一定的建议,辅助运维。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30