自动化运维解决问题

我们日常运维都是仅仅做到告警或诊断,很少有做到自动修复故障的,不知道专家们有没有这方面的产品介绍?感觉这块非常难做,尤其是做成通用产品

参与7

2同行回答

qq373793057qq373793057课题专家组系统工程师某银行
您所说的自动修复故障这个问题,的确很有难度,要具体故障具体分析,比如说,数据库出现I/O性能问题,自动化工具可以进行SQL扫描,找出执行缓慢的SQL,但是如何优化,恐怕还得人为干预。现在也没有哪个通用产品是专门做这些的,都要借用现有运维工具开发相应功能。而自动修复故障的前提是...显示全部

您所说的自动修复故障这个问题,的确很有难度,要具体故障具体分析,比如说,数据库出现I/O性能问题,自动化工具可以进行SQL扫描,找出执行缓慢的SQL,但是如何优化,恐怕还得人为干预。现在也没有哪个通用产品是专门做这些的,都要借用现有运维工具开发相应功能。

而自动修复故障的前提是要准确定位故障根源,这也是我们在实现自动修复前,要充分做好的。而现在往往出现业务告警后,从用户端、接入层、逻辑层、数据库层所有的监测点都会发出告警,很难真正定位问题根源,所以这也需要我们在建设告警体系时,设计好各层次告警的维度,做好告警的筛选分类,直至确定根源。

收起
银行 · 2017-04-28
浏览1752
fenglichunfenglichun系统工程师中国人民银行征信中心天津研发测试中心
对于告警后的自动化处理要分两个层次考虑,一个就是在运维过程中我们总结出哪些报警一出现就知道100%这个问题,那我们才有可能进行自动化脚本处理,例如:weblogic的wlst脚本的ping,不通的话就可以重新启动服务等。另外一个层次就是根据以往问题的发生的次数,总结出判定规则,根据规...显示全部

对于告警后的自动化处理要分两个层次考虑,一个就是在运维过程中我们总结出哪些报警一出现就知道100%这个问题,那我们才有可能进行自动化脚本处理,例如:weblogic的wlst脚本的ping,不通的话就可以重新启动服务等。另外一个层次就是根据以往问题的发生的次数,总结出判定规则,根据规则进行手工审核,然后自动化脚本执行。

收起
银行 · 2017-04-28
浏览1614

提问者

heijigaoke
CTO天天向上
擅长领域: 大数据cognos联机分析处理

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-04-28
  • 关注会员:3 人
  • 问题浏览:4608
  • 最近回答:2017-04-28
  • X社区推广