查看其它 1 个回答贺勇的回答

贺勇贺勇  产品研发部总经理 , Canway

建议了解一下谷歌的SRE理论以及混沌工程,一个业务系统的可靠性保障,绝对不是一个非常牛B的监控系统就能解决的。
1. 和应用系统本身的架构有紧密的关系;
2. 和团队组织架构,人员能力,流程制度,应急预案都有紧密关系;
3.就监控系统本身而言,有一句话讲的比较好“管理事件要在事件管理之前”,监控是眼睛,我们首先要做到能够通过各种工具发现问题,并且能够对告警事件进行丰富,收敛以及自动化处理等,这个阶段我们称为管理事件,把发现微小的隐患,消除在萌芽状态,这样进入ITIL流程中的“事件管理”就会变少,并且通过流程和协同,让问题能真正得到解决。

系统集成 · 2020-05-22
浏览1692

回答者

贺勇
产品研发部总经理Canway
擅长领域: 云计算系统运维服务器

贺勇 最近回答过的问题

回答状态

  • 发布时间:2020-05-22
  • 关注会员:3 人
  • 回答浏览:1692
  • X社区推广