简单来说就是要梳理出哪些进程/线程当时在处理发生故障的操作,进而找到报错源头的那个人。具体做法是先看计算节点日志(故障的操作连接的节点),从错误信息判断是不是哪个数据节点出了故障,然后再去看故障数据节点的日志。要以线程和时间去排查,不能乱关联,比如十多秒甚至几分钟...
显示全部简单来说就是要梳理出哪些进程/线程当时在处理发生故障的操作,进而找到报错源头的那个人。具体做法是先看计算节点日志(故障的操作连接的节点),从错误信息判断是不是哪个数据节点出了故障,然后再去看故障数据节点的日志。要以线程和时间去排查,不能乱关联,比如十多秒甚至几分钟之前的一次报错“通常认为”和故障没有太大关联,不要把别的线程的报错误认为是原因,除非你能确定报错的线程服务于故障操作。
收起