经常遇到这样一种情况:
drive和path都是正常的,写入失败并且挂起,q mount查看的话 drive一直dismounting 磁带不下来。此时dismount vol命令也无法执行。做audit也过不去,有时候最终要重启下带库(或手工从带库层dismount磁带),系统也重启才行,但是这样槽位信息又不一致了,再做audit library 时间又特别长。但做完审计能解决问题。
有针对这种问题的快速解决方法吗,或者这种情况导致的原因,谢谢
q drive和q path都是正常的, 不意味着底层设备就一定工作正常,参考问题 http://www.aixchina.net/Question/219481
软硬件都有可靠性,稳定性问题,实际写入失败并且挂起 可知是磁带驱动器访问发生了问题, 可能是偶尔或永久的故障。分析解决可以考虑几个层面:硬件出现故障,操作系统/带库驱动层问题,TSM软件层面问题。
涉及这种稳定性或硬件故障的问题,我觉的没有特别快的解决方法,应为你要一层一层隔离确定问题在哪, 但根据过往实际经历和经验,硬件故障较多,偶发或永久的,所以通常先检查硬件,解决硬件故障,像你做的已经很好,操作系统层面检查驱动器是否工作正常,重启带库,重启系统( 注意顺序,先重启带库,再系统, 应为有可能系统启动了但带库等硬件还没有完全正常,系统扫描不到正常设备)。
TSM是最外层,暴露故障表象,所以从TSM尝试解决一般是不会成功的,所以会看到‘drive一直dismounting 磁带不下来。此时dismount vol命令也无法执行’, 所以先不用尝试用其他TSM命令,像audit libr去尝试修复了。
对于硬件可靠性问题,另外一个处理是预防: 比如采用可靠性高的磁带驱动器,定期用清洗带清洗,保障磁带驱动器良好工作状态,做好运维记录,替换经常发生故障的驱动器(稳定性太差)等。
收起