2017年5月11日18:09:59根据日志分析补充,请看下列分析过程
从您上传的日志中,发现如下问题:
第一部分日志如下,该日志显示在5月8日显示Networker进程重启,首先Networker server的相关进程重启完成,无异常
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Product: NetWorker
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Release: 8.2.0.1.Build.479
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Build number: 479
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Build date: Thu Aug 28 09:40:53 PDT 2014
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 Build arch.: ntx64
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Build info: DBG=0,OPT=
83276 2017/5/8 20:06:34 1 5 0 1824 1820 0 networker nsrd NSR 注意 启动过程已完成;现在服务器完全可用
第二部分日志如下,在Networker server相关进程成功重启后,nsrd开始启动storage node的相关进程,接着storage node的进程启动成功(SNMD_STARTED 更改为 SNMD_READY)
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Product: NetWorker
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Release: 8.2.0.1.Build.479
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Build number: 479
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Build date: Thu Aug 28 09:40:53 PDT 2014
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 Build arch.: ntx64
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Build info: DBG=0,OPT=
33486 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 正在启动 pid 为 3264 的 nsrsnmd 339835905。
71193 2017/5/8 20:07:09 0 0 0 1824 1820 0 networker nsrd NSR 信息 介质 信息: 根据要求在主机“networker”上启动 nsrsnmd 进程。
82327 2017/5/8 20:07:33 1 9 0 3492 2376 0 networker nsrjobd JOBS עӢ 正在启动作业数据库的 full 清除
93514 2017/5/8 20:07:33 1 9 0 3492 2376 0 networker nsrjobd JOBS עӢ 在 0 分 1 秒内完成 full 数据库清除 。记录已清除:0
51624 2017/5/8 20:07:48 0 0 0 1824 1820 0 networker nsrd NSR 信息 已将存储节点 networker 中 nsrsnmd 进程的状态从 SNMD_STARTED 更改为 SNMD_READY
第三部分日志如下,Networker Server和storage node进程都正常启动,Networker开始重启和nsrlcpd和nsrmmd管理磁带库设备,但这个时候就出现了问题。
33526 2017/5/8 20:07:48 1 5 0 3608 3604 0 networker nsrmmd NSR 注意 启动 nsrmmd #5(其 PID 为 3604,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3584 3580 0 networker nsrmmd NSR 注意 启动 nsrmmd #2(其 PID 为 3580,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3616 3612 0 networker nsrmmd NSR 注意 启动 nsrmmd #6(其 PID 为 3612,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3600 3596 0 networker nsrmmd NSR 注意 启动 nsrmmd #4(其 PID 为 3596,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3624 3620 0 networker nsrmmd NSR 注意 启动 nsrmmd #7(其 PID 为 3620,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3632 3628 0 networker nsrmmd NSR 注意 启动 nsrmmd #8(其 PID 为 3628,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3640 3636 0 networker nsrmmd NSR 注意 启动 nsrmmd #9(其 PID 为 3636,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3592 3588 0 networker nsrmmd NSR 注意 启动 nsrmmd #3(其 PID 为 3588,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3648 3644 0 networker nsrmmd NSR 注意 启动 nsrmmd #10(其 PID 为 3644,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3656 3652 0 networker nsrmmd NSR 注意 启动 nsrmmd #11(其 PID 为 3652,位于主机 networker 上)
0 2017/5/8 20:07:49 1 5 0 2896 2344 0 networker nsrmmgd NSR 注意 05/08/17 20:07:49.990650 lcpd 1 at host networker reported error '光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。
' for the command `3'.
Unable to render the following message: 31882 1494245269 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 68 Configuration of jukebox `%s' failed with the following error: '%s'. 2 21 9 STK@3.2.0 0 93 光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。
Unable to render the following message: 31882 1494245269 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 68 Configuration of jukebox `%s' failed with the following error: '%s'. 2 21 9 STK@3.2.0 0 93 光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。
31883 2017/5/8 20:07:49 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 光盘机“STK@3.2.0”不可用。主机“networker”的 nsrlcpd 1 上的配置命令失败。正在重试..
0 2017/5/8 20:07:50 1 5 0 2896 2344 0 networker nsrmmgd NSR 注意 05/08/17 20:07:50.115450 mgd_process_admin_response: failed to process response for command 3 from lcpd 1 at host networker with error '光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。
'.
Unable to render the following message: 15533 1494245270 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 51 nsrlcpd response processing failed with error '%s'. 1 0 93 光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。
Unable to render the following message: 15533 1494245270 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 51 nsrlcpd response processing failed with error '%s'. 1 0 93 光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。
71193 2017/5/8 20:07:50 0 0 0 1824 1820 0 networker nsrd NSR 信息 介质 信息: 存储节点 networker 供 ready 使用。
15045 2017/5/8 20:08:51 2 0 0 3172 3076 0 networker nsrlcpd#1 NSR ޯ٦ 光盘机“STK@3.2.0”正在退出该光盘机不再由 nsrlcpd 管理。
2017/5/8 20:26:21 2 0 0 2828 3076 0 networker nsrlcpd#1 NSR ���� 光盘机“STK@3.2.0”正在退出该光盘机不再由 nsrlcpd 管理。
2017/5/8 20:26:21 2 0 0 2828 3076 0 networker nsrlcpd#1 NSR ���� 光盘机“STK@3.2.0”正在退出该光盘机不再由 nsrlcpd 管理。
Networker的nsrlcpd(Networker与磁带库机械臂通讯进程)无法与磁带库正常通讯(超时),然后尝试重新通讯失败,磁带库无法被Networker管理,后续所有备份启动后一直等待磁带设备,接着超时,备份失败。
排查方向:
1,磁带库到Networker Server的物理链路,确认光纤链路是否异常。
2,Networker server在操作系统上识别磁带库是否存在问题。
请在windows设备管理中查看机械手(媒体介质转换器)和磁带机(磁带驱动器)是否正常被识别。
如果没有被正常识别,请检查机械手和磁带机驱动。
3,如果以上都没有问题,就需要开始细致排查磁带库的相关SCSI属性是否改变
a,windows主机是否重启?
如果windows主机识别了多个scsi设备,在重启后,scsi设备的scsi port可能发生改变。Networker备份软件会记录此前磁带库的scsi port,若发生改变,则可能导致Networker无法控制磁带库。
b,windows主机是否添减scsi设备?
如果windows主机添减了scsi设备,在重新扫描scsi设备后,scsi设备的scsi port也可能发生改变,从而导致Networker无法控制磁带库。
c,Networker备份时是否对磁带库进行reconfig操作?
若Networker进行备份时,在有备份作业任务的磁带库上进行reconfig很可能导致Networker记录的library和device信息出现不一致的情况,此问题也会导致重启Networker进程后无法控制磁带库的问题。
重新配置磁带库的方法:
1,在Networker NMC设备中,删除故障磁带库,删除设备中故障磁带库中的磁带机设备。
2,请在WINDOWS CMD(管理员模式),执行nsradmin -p nsrexecd,在type中找到nsr storage node,选择storage node name为此服务器的名字的storage node,在其属性中找到unconfigured library和unconfigured device,清空该选项。
3,停止Networker进程,删除/nsr/tmp,重命名/nsr/log
4,重新启动Networker进程
5,等待Networker进程全部正常启动后,在Networker NMC设备中“扫描磁带库”,扫描完成后“配置磁带库”,勾选需要配置的磁带机即可。
6,恢复该磁带库相关的pool和device对应关系
failed to connect storage node,请检查备份服务器和存储节点,存储节点和客户端之间的网络通讯情况。
failed to authenticate with nsrmmd,请检查client属性里Access host信息。
另外可以尝试root用户重启storage node上的networker服务,nsrmmd假死的时候也可能报这个错。
收起