监控到故障为时已晚,毕竟很多随机性问题不可预测,如何补好这块短板?

2回答

he7yonghe7yong  研发工程师 , Canway
zhuhaiqiang冷学峰赞同了此回答
建议了解一下谷歌的SRE理论以及混沌工程,一个业务系统的可靠性保障,绝对不是一个非常牛B的监控系统就能解决的。1. 和应用系统本身的架构有紧密的关系;2. 和团队组织架构,人员能力,流程制度,应急预案都有紧密关系;3.就监控系统本身而言,有一句话讲的比较好“管理事件要在事件管...显示全部

建议了解一下谷歌的SRE理论以及混沌工程,一个业务系统的可靠性保障,绝对不是一个非常牛B的监控系统就能解决的。
1. 和应用系统本身的架构有紧密的关系;
2. 和团队组织架构,人员能力,流程制度,应急预案都有紧密关系;
3.就监控系统本身而言,有一句话讲的比较好“管理事件要在事件管理之前”,监控是眼睛,我们首先要做到能够通过各种工具发现问题,并且能够对告警事件进行丰富,收敛以及自动化处理等,这个阶段我们称为管理事件,把发现微小的隐患,消除在萌芽状态,这样进入ITIL流程中的“事件管理”就会变少,并且通过流程和协同,让问题能真正得到解决。

收起
 2020-05-22
浏览497
fanlufanlu  销售管理 , veeam
推荐您了解Veeam,自动的实施监控运维可以完成:l 优化虚拟、物理、多云环境基础架构 – CPU, 内存和磁盘;l 监控,可视化以及诊断虚拟基础架构和数据保护性能问题;l 预测可用容量和计算资源增长情况;l 快速定位虚拟化平台性能问题,给出解决方法和相关背景知识;l 找到虚拟基础...显示全部

推荐您了解Veeam,自动的实施监控运维可以完成:
l 优化虚拟、物理、多云环境基础架构 – CPU, 内存和磁盘;
l 监控,可视化以及诊断虚拟基础架构和数据保护性能问题;
l 预测可用容量和计算资源增长情况;
l 快速定位虚拟化平台性能问题,给出解决方法和相关背景知识;
l 找到虚拟基础架构中发生的变更并确定这些变更是否对性能产生影响;
单一视图中管理主数据中心和分支办公室

收起
 2020-05-22
浏览392

提问者

hufeng719系统工程师, 某钢铁企业

问题状态

  • 发布时间:2020-05-22
  • 关注会员:3 人
  • 问题浏览:2838
  • 最近回答:2020-05-22