nbu master周期性出现磁带库通讯故障,网络协议错误等问题?
nbu master周期性出现磁带库通讯故障(corba communication error),网络协议错误(network protocol error)等问题;每次重启nbu master 服务进程(包括exchanged)后,上述问题现象消失,约两周左右,问题重现;
从nbsu中查看有部分io error和驱动器离线,并且虚拟带库驱动器偶尔会出现pend状态,不过在系统层面和交换机链路没有发现异常;
nbu master 版本 7.7.3 系统是hpux 11.31,该备份域media server 版本 7.7.3,client版本是7.1.0.4
1回答
这个问题比较麻烦,涉及的点比较多,需要综合查看
- 首先检查虚拟磁带库设备的日志,查看有无明显报错
- 根据nbu的am,查看最早的报错作业,记录时间和进程id
- 查看robot control host+media server的系统日志,根据作业报错时间查看系统日志中有没有设备异常的报错。
- 在故障时,分别从系统层面、nbu层面查看设备状态,如果系统查看异常是设备连接的问题,如果系统查看正常 nbu显示异常 是nbu的问题
- 如果确认是nbu的问题,可以把磁带设备相关进程日志(tpcommand/robots/ltid/daemon/avrid等),以及master的nbrb nbjm bprd bpdbm的进程日志打开,看看到底是哪个环境出问题了
个人感觉大概率是相互兼容的问题,如果推得动的话,升级下磁带库和nbu软件的版本
收起