分布式系统如何快速进行故障定位,特别是分库数据库的故障判定?

参与3

1同行回答

匿名用户匿名用户
简单来说就是要梳理出哪些进程/线程当时在处理发生故障的操作,进而找到报错源头的那个人。具体做法是先看计算节点日志(故障的操作连接的节点),从错误信息判断是不是哪个数据节点出了故障,然后再去看故障数据节点的日志。要以线程和时间去排查,不能乱关联,比如十多秒甚至几分钟...显示全部

简单来说就是要梳理出哪些进程/线程当时在处理发生故障的操作,进而找到报错源头的那个人。具体做法是先看计算节点日志(故障的操作连接的节点),从错误信息判断是不是哪个数据节点出了故障,然后再去看故障数据节点的日志。要以线程和时间去排查,不能乱关联,比如十多秒甚至几分钟之前的一次报错“通常认为”和故障没有太大关联,不要把别的线程的报错误认为是原因,除非你能确定报错的线程服务于故障操作。

收起
证券 · 2019-09-18
浏览1447

提问者

lwy170209
系统管理员浙江农商联合银行
擅长领域: 信创信创云云计算

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2019-09-17
  • 关注会员:2 人
  • 问题浏览:2198
  • 最近回答:2019-09-18
  • X社区推广