故障自愈如何在金融行业落地?

目前我行已经上了告警系统、自动化作业系统、配置管理系统、APM、NPM、日志等运维工具,年底规划产品间的联动。

问题:「故障自愈」场景的自愈触发条件在哪个系统设置最优?(涉及行内安全审计和部门之间的协作)是追求效率(速度)还是要效益()

现状:自动化提供脚本作自愈工具,在告警系统页面做触发条件设置并关联自动化脚本,当告警事件被触发时执行预设的脚本自愈工具。管理层认为告警、处置规则都是告警平台做,无法保证安全,他们认为要有流程,避免误操作。

告警自愈的场景:服务进程拉起、服务器磁盘清理等。

想请大家给些建设思路和经验。

参与3

1同行回答

沈天真沈天真售前支持IPS
个人感觉,除非能从告警信息或者其他信息中完全确定故障原因,可以采取一些自愈措施,稍微复杂的都要慎重。细节的地方太多,例如可能某个优先级高的服务抢占了资源,或者调用链依赖的某个服务故障,导致另外一个服务起不来,但是如果此时用自愈脚本反复去启动,是不是永远没有效果,可能连...显示全部

个人感觉,除非能从告警信息或者其他信息中完全确定故障原因,可以采取一些自愈措施,稍微复杂的都要慎重。细节的地方太多,例如可能某个优先级高的服务抢占了资源,或者调用链依赖的某个服务故障,导致另外一个服务起不来,但是如果此时用自愈脚本反复去启动,是不是永远没有效果,可能连带产生其他的问题,或者你要考虑完整的调用链。

收起
硬件生产 · 2021-11-17
浏览1232
Kevenzhang 邀答

提问者

Kevenzhang
运维工程师AUTO

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-11-17
  • 关注会员:2 人
  • 问题浏览:2101
  • 最近回答:2021-11-17
  • X社区推广