networker报错,备份已经停了几天了,检查光纤链路是正常的,帮忙看看,谢谢!

帮忙看看,报错,备份已经停了几天了,检查光纤链路是正常的,谢谢!n1.pngn2.jpgn3.pngn4.pngn5.png显示全部

帮忙看看,报错,备份已经停了几天了,检查光纤链路是正常的,谢谢!
n1.png

n1.png

n2.jpg
n2.jpg

n3.png
n3.png

n4.png
n4.png

n5.png
n5.png

收起
参与12

查看其它 2 个回答Jerry Miku的回答

Jerry MikuJerry Miku其它The Global 500

2017年5月11日18:09:59根据日志分析补充,请看下列分析过程

从您上传的日志中,发现如下问题:
第一部分日志如下,该日志显示在5月8日显示Networker进程重启,首先Networker server的相关进程重启完成,无异常
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Product: NetWorker
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Release: 8.2.0.1.Build.479
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Build number: 479
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Build date: Thu Aug 28 09:40:53 PDT 2014
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 Build arch.: ntx64
0 2017/5/8 20:06:33 1 5 0 2904 2900 0 networker nsrmmdbd NSR 注意 @(#) Build info: DBG=0,OPT=
83276 2017/5/8 20:06:34 1 5 0 1824 1820 0 networker nsrd NSR 注意 启动过程已完成;现在服务器完全可用

第二部分日志如下,在Networker server相关进程成功重启后,nsrd开始启动storage node的相关进程,接着storage node的进程启动成功(SNMD_STARTED 更改为 SNMD_READY)
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Product: NetWorker
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Release: 8.2.0.1.Build.479
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Build number: 479
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Build date: Thu Aug 28 09:40:53 PDT 2014
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 Build arch.: ntx64
0 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 @(#) Build info: DBG=0,OPT=
33486 2017/5/8 20:07:07 1 5 0 3268 3264 0 networker nsrsnmd NSR 注意 正在启动 pid 为 3264 的 nsrsnmd 339835905。

71193 2017/5/8 20:07:09 0 0 0 1824 1820 0 networker nsrd NSR 信息 介质 信息: 根据要求在主机“networker”上启动 nsrsnmd 进程。
82327 2017/5/8 20:07:33 1 9 0 3492 2376 0 networker nsrjobd JOBS עӢ 正在启动作业数据库的 full 清除

93514 2017/5/8 20:07:33 1 9 0 3492 2376 0 networker nsrjobd JOBS עӢ 在 0 分 1 秒内完成 full 数据库清除 。记录已清除:0
51624 2017/5/8 20:07:48 0 0 0 1824 1820 0 networker nsrd NSR 信息 已将存储节点 networker 中 nsrsnmd 进程的状态从 SNMD_STARTED 更改为 SNMD_READY

第三部分日志如下,Networker Server和storage node进程都正常启动,Networker开始重启和nsrlcpd和nsrmmd管理磁带库设备,但这个时候就出现了问题。
33526 2017/5/8 20:07:48 1 5 0 3608 3604 0 networker nsrmmd NSR 注意 启动 nsrmmd #5(其 PID 为 3604,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3584 3580 0 networker nsrmmd NSR 注意 启动 nsrmmd #2(其 PID 为 3580,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3616 3612 0 networker nsrmmd NSR 注意 启动 nsrmmd #6(其 PID 为 3612,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3600 3596 0 networker nsrmmd NSR 注意 启动 nsrmmd #4(其 PID 为 3596,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3624 3620 0 networker nsrmmd NSR 注意 启动 nsrmmd #7(其 PID 为 3620,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3632 3628 0 networker nsrmmd NSR 注意 启动 nsrmmd #8(其 PID 为 3628,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3640 3636 0 networker nsrmmd NSR 注意 启动 nsrmmd #9(其 PID 为 3636,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3592 3588 0 networker nsrmmd NSR 注意 启动 nsrmmd #3(其 PID 为 3588,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3648 3644 0 networker nsrmmd NSR 注意 启动 nsrmmd #10(其 PID 为 3644,位于主机 networker 上)
33526 2017/5/8 20:07:48 1 5 0 3656 3652 0 networker nsrmmd NSR 注意 启动 nsrmmd #11(其 PID 为 3652,位于主机 networker 上)
0 2017/5/8 20:07:49 1 5 0 2896 2344 0 networker nsrmmgd NSR 注意 05/08/17 20:07:49.990650 lcpd 1 at host networker reported error '光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。
' for the command `3'.
Unable to render the following message: 31882 1494245269 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 68 Configuration of jukebox `%s' failed with the following error: '%s'. 2 21 9 STK@3.2.0 0 93 光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。

Unable to render the following message: 31882 1494245269 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 68 Configuration of jukebox `%s' failed with the following error: '%s'. 2 21 9 STK@3.2.0 0 93 光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。

31883 2017/5/8 20:07:49 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 光盘机“STK@3.2.0”不可用。主机“networker”的 nsrlcpd 1 上的配置命令失败。正在重试..

0 2017/5/8 20:07:50 1 5 0 2896 2344 0 networker nsrmmgd NSR 注意 05/08/17 20:07:50.115450 mgd_process_admin_response: failed to process response for command 3 from lcpd 1 at host networker with error '光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。
'.
Unable to render the following message: 15533 1494245270 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 51 nsrlcpd response processing failed with error '%s'. 1 0 93 光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。

Unable to render the following message: 15533 1494245270 2 0 0 2896 2344 0 networker nsrmmgd NSR 警告 51 nsrlcpd response processing failed with error '%s'. 1 0 93 光盘机“STK@3.2.0”(命令操作“CONFIG”,命令 ID 2)在等待库时超时。

71193 2017/5/8 20:07:50 0 0 0 1824 1820 0 networker nsrd NSR 信息 介质 信息: 存储节点 networker 供 ready 使用。

15045 2017/5/8 20:08:51 2 0 0 3172 3076 0 networker nsrlcpd#1 NSR ޯ٦ 光盘机“STK@3.2.0”正在退出该光盘机不再由 nsrlcpd 管理。
2017/5/8 20:26:21 2 0 0 2828 3076 0 networker nsrlcpd#1 NSR ���� 光盘机“STK@3.2.0”正在退出该光盘机不再由 nsrlcpd 管理。
2017/5/8 20:26:21 2 0 0 2828 3076 0 networker nsrlcpd#1 NSR ���� 光盘机“STK@3.2.0”正在退出该光盘机不再由 nsrlcpd 管理。

Networker的nsrlcpd(Networker与磁带库机械臂通讯进程)无法与磁带库正常通讯(超时),然后尝试重新通讯失败,磁带库无法被Networker管理,后续所有备份启动后一直等待磁带设备,接着超时,备份失败。

排查方向:
1,磁带库到Networker Server的物理链路,确认光纤链路是否异常。
2,Networker server在操作系统上识别磁带库是否存在问题。
请在windows设备管理中查看机械手(媒体介质转换器)和磁带机(磁带驱动器)是否正常被识别。
如果没有被正常识别,请检查机械手和磁带机驱动。
3,如果以上都没有问题,就需要开始细致排查磁带库的相关SCSI属性是否改变
a,windows主机是否重启?
如果windows主机识别了多个scsi设备,在重启后,scsi设备的scsi port可能发生改变。Networker备份软件会记录此前磁带库的scsi port,若发生改变,则可能导致Networker无法控制磁带库。
b,windows主机是否添减scsi设备?
如果windows主机添减了scsi设备,在重新扫描scsi设备后,scsi设备的scsi port也可能发生改变,从而导致Networker无法控制磁带库。

c,Networker备份时是否对磁带库进行reconfig操作?
若Networker进行备份时,在有备份作业任务的磁带库上进行reconfig很可能导致Networker记录的library和device信息出现不一致的情况,此问题也会导致重启Networker进程后无法控制磁带库的问题。

重新配置磁带库的方法:

操作前请务必备份Networker中该磁带库相关的pool和device对应关系

1,在Networker NMC设备中,删除故障磁带库,删除设备中故障磁带库中的磁带机设备。
2,请在WINDOWS CMD(管理员模式),执行nsradmin -p nsrexecd,在type中找到nsr storage node,选择storage node name为此服务器的名字的storage node,在其属性中找到unconfigured library和unconfigured device,清空该选项。
3,停止Networker进程,删除/nsr/tmp,重命名/nsr/log
4,重新启动Networker进程
5,等待Networker进程全部正常启动后,在Networker NMC设备中“扫描磁带库”,扫描完成后“配置磁带库”,勾选需要配置的磁带机即可。
6,恢复该磁带库相关的pool和device对应关系

failed to connect storage node,请检查备份服务器和存储节点,存储节点和客户端之间的网络通讯情况。

failed to authenticate with nsrmmd,请检查client属性里Access host信息。

另外可以尝试root用户重启storage node上的networker服务,nsrmmd假死的时候也可能报这个错。

IT其它 · 2017-05-10
浏览4637

回答者

Jerry Miku
其它The Global 500
擅长领域: 存储备份灾备

Jerry Miku 最近回答过的问题

回答状态

  • 发布时间:2017-05-10
  • 关注会员:5 人
  • 回答浏览:4637
  • X社区推广