目前我行已经上了告警系统、自动化作业系统、配置管理系统、APM、NPM、日志等运维工具,年底规划产品间的联动。
问题:「故障自愈」场景的自愈触发条件在哪个系统设置最优?(涉及行内安全审计和部门之间的协作)是追求效率(速度)还是要效益()
现状:自动化提供脚本作自愈工具,在告警系统页面做触发条件设置并关联自动化脚本,当告警事件被触发时执行预设的脚本自愈工具。管理层认为告警、处置规则都是告警平台做,无法保证安全,他们认为要有流程,避免误操作。
告警自愈的场景:服务进程拉起、服务器磁盘清理等。
想请大家给些建设思路和经验。