您所说的自动修复故障这个问题,的确很有难度,要具体故障具体分析,比如说,数据库出现I/O性能问题,自动化工具可以进行SQL扫描,找出执行缓慢的SQL,但是如何优化,恐怕还得人为干预。现在也没有哪个通用产品是专门做这些的,都要借用现有运维工具开发相应功能。
而自动修复故障的前提是要准确定位故障根源,这也是我们在实现自动修复前,要充分做好的。而现在往往出现业务告警后,从用户端、接入层、逻辑层、数据库层所有的监测点都会发出告警,很难真正定位问题根源,所以这也需要我们在建设告警体系时,设计好各层次告警的维度,做好告警的筛选分类,直至确定根源。
收起