小吉
作者小吉·2011-09-27 11:27
系统工程师·东软集团股份有限公司

机房巡检注意事项

字数 3948阅读 6078评论 3赞 0

 

一、 机房巡检注意事项:

1、机房巡检准备工作:带笔记本,笔和小手电。天气炎热情况下最好能带御寒衣物(机房内外温差大)。

2、进入机房操作注意事项:a、切勿随意触碰各种线缆;b、严禁随意搬动运行中的设备;c、机柜门轻开轻关;d、随身物品应放于指定留放处,切勿随意置于设备上;e、禁止携带任何液体类物品进入机房。

3、发现故障设备的处理事项:a、当看到设备前面板告警指示灯点亮,应全面查看该设备各个部件,初步确认是否设备某一部件告警;b、发现有设备告警,记录下该设备的SN号,如初步确认是部件告警,还需记录该部件的PN号(SUNDell设备SN号一般位于设备背部;IBM设备SN号一般位于前面板右下角处;HP设备SN号一般位于前面板左右边缘处;交换机、路由器设备需连机用命令获取)。

 

 

二、各厂商设备指示灯含义

1HP设备(包括型号HP DL380HP DL580

1)服务器前面板如下图所示的指示灯可以指示服务器的工作状况:

 

 

 

 

 

 

 

 

指示灯

描述

状态及含义

USB

 

电源按钮及指示灯

菊黄色 = 系统关闭(电源连接)
绿色 = 系统启动
Off =
服务器未接通电源

网卡 指示灯

指示网卡的工作情况

外部监控状况指示灯(电源模块)(当一路电源未插上时此灯点亮,可观察设备背后确认

绿色 = 正常 (系统启动)
菊黄色 =冗余电源模块出现故障
红色 = 严重的电源故障
Off =
系统关

内部健康状况指示灯

绿色 = 正常 (系统启动)
菊黄色 = 系统健康情况降级 (查看服务器内部冗余部件是否有故障)
红色 = 严重系统故障(查看服务器内部是否有严重故障)
Off =
系统关闭

服务器UID 指示灯

蓝色 = 激活
蓝色闪烁= 服务器被远程管理
Off =
未激活

可以在维护时通过打开UID指示灯,在维护服务器后部时可以确定指明被维护的服务器。)

2快速诊断板指示灯的含义 ,见下表:

 

 

 

编号

描述

状态

Online Spare memory 指示灯

绿=保护模式开启
琥珀色闪烁=内存配置错误
琥珀色=内存失败
不亮=没有保护

Mirrored memory 指示灯

绿=保护模式开启
琥珀色闪烁=内存配置错误
琥珀色=内存失败
不亮=没有保护

 

所有其他指示灯

琥珀色=失败
不亮=正常

 

: HP Systems Insight Display)快速诊断板 的指示灯表现出了主板部件的布局

 

当前面板的内部健康灯 亮红灯或是黄灯时 表示此时服务器可能发现了一个故障 可以结合前面板的内部健康灯和快速诊断板指示灯 Systems Insight Display 指示出服务器的当前状态。

快速诊断板指示灯

颜色

服务器状态

 

 

Processor failure socket X

 

 

一个或多个以下的情况可能存在 :

socket X 槽位的 处理器失败了

X 槽位的 处理器未安装好
X
槽位的 处理器是不支持的
在自检时 ROM 发现了一个失败的处理器

琥珀色

X 槽位的 处理器处于即将失败的情况

 

 

PPM failure slot X

 

一个或多个以下的情况可能存在 :

X 槽位的 PPM 失败了

X 槽位的 PPM 未安装 却安装 了相应的处理器

Online spare memory

有缺陷的在线冗余内存配置

琥珀色

X 组的内存故障 且在线冗余内存启用

Online spare memory

绿

在线冗余内存配置已启用且为正常状态

FBDIMM failure slot X

X 槽位的 内存失败了

FBDIMM failure all slots in one bank

指定的内存组上没有有效的或是可用的内存

 

Mirrored memory

有缺陷的镜象内存配置

琥珀色

X 组的内存故障 且镜象内存启用

绿

镜象内存配置已启用且状态 正常

Overtemperature

温度报警

琥珀色

温度预报警

Riser interlock

PCI 扩展笼未接或不牢固

 

Fan

两个或更多的风扇故障或未安装

琥珀色

有一个风扇故障或未安装

 

 

2IBM设备(包括X346X650----具体设备可能有些出入)

1)服务器前面板如下图所示的指示灯可以指示服务器的工作状况:

 

 

信息指示灯:当该灯亮时,表明错误或者警告信息已经写入系统事件日志中。

②定位器指示灯:该灯亮表明是由系统管理员远程点亮以便找到服务器。

③系统错误指示灯:该灯亮表明系统出现错误。通过光通路诊断板来定位故障。

④供电指示灯:a、该灯点亮且不闪烁,表明服务器已经开启。

b、该灯闪烁时,表明服务器已经关闭且仍然连接到交流电源。

c、该灯熄灭时,表明已经切断交流电源或者电源或者指示灯本身出了故障

 

1、 光通路诊断面板指示灯

 

指示灯

描述

操作

OVERSPEC

没有足够的电量为系统供电。NONREDLOG指示灯可能也点亮

1、如果只安装了一个电源,请添加一个可选电源。2、使用220V交流电输入功率。3、重新安装以下组件:电源  电源底板。

PS

一个电源故障或者被电源未插

专家处理

LINK

保留

专家处理

CPU

CPU出现故障、丢失或者未正确安装

专家处理

VRM

直流电-直流电稳压器丢失或者故障

专家处理

LOG

BMC日志或者系统错误日志满(系统错误日志达到75%满)

专家处理

MEM

内存故障

专家处理

NMI

系统已收到一个硬件错误报告。(PCIMEM指示灯也可能点亮)

专家处理

PCI

PCI适配器出现故障

专家处理

SP

Remote Supervisor Adapter II SlimLine中出现故障

专家处理

DASD

硬盘出现故障或者被卸下

专家处理

RAID

RAID适配器出现故障

专家处理

NONRED

服务器使用非冗余电源或者其交流电源出现故障,系统将超出规范。

专家处理

TEMP

系统温度或者组件超出规范。(风扇FAN可能也被点亮)

专家处理

FAN

风扇出现故障或者被卸下

专家处理

PCI  BRD

PCI-X板出现故障

专家处理

CPU  BRD

CPU托盘出现故障

专家处理

I/O  BRD

I/O板出现故障

专家处理

 

注:REMIND按钮:按下REMIND按钮时,表示确认错误,但不准备立即采取措施,将系统错误指示灯置于“提醒”方式。当服务器处于“提醒”方式时,系统错误指示灯将闪烁。

3SUN设备(包括SUN V445X366--具体设备可能有些出入)

1)前面板指示灯:

 

 

 2)各指示灯含义:

 

图标

名称

含义

定位器

通过远程命令点亮此灯,用于设备定位

需要维修

检测到系统故障时,此灯点亮为琥珀色(类似黄色)。例如:电源或者磁盘故障时此灯亮。

系统活动

此灯亮绿色且持续不闪烁,表明电源处于接通状态,系统运行中。

风扇托盘故障

此灯亮琥珀色时,表明风扇有故障,具体是哪个风扇可查看机器顶部指示灯。

电源故障

此灯亮琥珀色时,表明电源有故障,具体哪个电源可查看机器后部。

CPU过热

此灯点亮时,表明CPU温度过高。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论3 条评论

aixclubaixclub网站运营经理TWT
2011-10-08 08:13
有图片当然更好啦
小吉小吉系统工程师东软集团股份有限公司
2011-10-02 19:36
aixclub: 好内容!
谢谢 本来还有图片 结果 没弄上去
aixclubaixclub网站运营经理TWT
2011-09-28 17:01
好内容!
Ctrl+Enter 发表

作者其他文章

  • 机房巡检标准
    评论 1 · 赞 0
  • 相关文章

    相关问题

    相关资料

    X社区推广