最近遇到个坑爹故障,然后就掉坑里了,求各位高手给看看
接到客户报障,DS5020亮黄灯。到现场后查看存储报错信息如下:
Maximum Temperature Exceeded
Storage Subsystem:
Unnamed Component reporting problem:
Thermal sensor Status: UNKNOWN
Location: Controller/Drive Expansion Enclosure 85 Power-fan CRU/FRU (Left)
Component requiring service: Temperature sensor
Enclosure: Controller/Drive expansion enclosure
Maximum Temperature Exceeded
Storage Subsystem:
Unnamed Component reporting problem:
Thermal sensor Status: UNKNOWN
Location: Controller/Drive Expansion Enclosure 85 Power-fan CRU/FRU (Right)
Component requiring service: Temperature sensor
Enclosure: Controller/Drive expansion enclosure
报错信息显示检测不到两个电源风扇的温度,位置是控制器和电源风扇。查看设备上控制器和电源风扇的状态均正常,没有告警灯亮。sm软件查看除了电源风扇的温度状态是:unkown,其他工作状态均正常。
初步怀疑是电源风扇有问题。更换2个电源风扇后故障依旧。
该存储为客户生产存储,上面承载着oracle数据库和vmware,将所有数据迁移至其他存储后,进行如下操作
查看控制器微码版本较旧,怀疑是bug。升级控制微码到最新的07.84.56,故障依旧。
咨询原厂工程师答复可能因为灰尘过多,阻塞通风口。将整机所有部件,控制器、电源、硬盘、机身内部拆卸清灰后,故障依旧。
最后通过串口进行恢复出厂设置,故障依旧。
现在同时报两个电源风扇的温度探测不到,而且该故障有时候可以检测到,有时候检测不到(sm软件里面间歇性的没有任何报错),但是机身的黄灯是一直亮着的。现在能想到的办法只剩下控制器和背板没有换,看故障现象不像控制器问题,求遇到过此类故障的高手支招。