自动化运维解决问题

我们日常运维都是仅仅做到告警或诊断,很少有做到自动修复故障的,不知道专家们有没有这方面的产品介绍?感觉这块非常难做,尤其是做成通用产品显示全部

我们日常运维都是仅仅做到告警或诊断,很少有做到自动修复故障的,不知道专家们有没有这方面的产品介绍?感觉这块非常难做,尤其是做成通用产品

收起
参与7

查看其它 1 个回答qq373793057的回答

qq373793057qq373793057课题专家组系统工程师某银行

您所说的自动修复故障这个问题,的确很有难度,要具体故障具体分析,比如说,数据库出现I/O性能问题,自动化工具可以进行SQL扫描,找出执行缓慢的SQL,但是如何优化,恐怕还得人为干预。现在也没有哪个通用产品是专门做这些的,都要借用现有运维工具开发相应功能。

而自动修复故障的前提是要准确定位故障根源,这也是我们在实现自动修复前,要充分做好的。而现在往往出现业务告警后,从用户端、接入层、逻辑层、数据库层所有的监测点都会发出告警,很难真正定位问题根源,所以这也需要我们在建设告警体系时,设计好各层次告警的维度,做好告警的筛选分类,直至确定根源。

银行 · 2017-04-28
浏览1753

回答者

qq373793057
系统工程师某银行
擅长领域: 存储灾备分布式系统

qq373793057 最近回答过的问题

回答状态

  • 发布时间:2017-04-28
  • 关注会员:3 人
  • 回答浏览:1753
  • X社区推广