nkj827
作者nkj8272020-04-30 23:20
项目经理, 长春长信华天

X86服务器故障排除步骤及技巧

字数 1687阅读 1000评论 0赞 0

故障排除步骤及技巧

1.1 准确描述问题

• 信息获得

– 途径:使用者、代理商、了解情况的人、 ……

– 目的:获得第一手资料

• 有效沟通方式

– 有效倾听

• 做记录,不要打岔等

– 有效发问 , Questioning is a key skill

• 思路清晰,针对不同类型用户问不同类型问题

– 可以通过规范表格,收集有效信息

• 故障情况

– 客户通过什么信息认为有问题

– 从正常状况到故障状况,做了什么操作,软件和硬件的变化

– 有没有规律 ( 了解什么时间发生 , 发生什么问题 , 发生后做过什么操作 )

• 分析信息

• 有效组织信息

• 确定问题

• 给客户描述问题

– 目的:确认双方对问题理解的准确性、一致性

1.2 收集信息

• 故障设备信息

– 了解产品类别

– POST beep code , POST error code

– Check Point 显示代码

– 故障状态下屏幕信息

– LPD ,及系统其它部件故障灯状态

– 收集各种可获得的日志

– 软件和硬件的信息 (DSA)

1.3 分析问题

• 分析问题过程中,确定问题是否属于支持范围之内

• 明确我们能做到什么,做不到的可以给用户什么建议

• 如果不属于服务范围,要恰到好处 ”Say No”

• 具体分析问题

• 确认服务器的用电环境(输入电压 200V-240V, 零点电压 0-3.3V )

• 确认硬件配置合法性

• 确认 NOS 兼容性

• 分析日志

• 维修记录

• 查阅 Retain 和 GCG Tips DB, 是否属于已知问题

• 硬件维护手册是否有相关帮助信息

• PMR 是否已经有相关问题的报告

• 查阅第三方 Knowledge Base, 是否属于已知问题

1.4 现场操作步骤

• 步骤

– 收集当前故障状态下日志 , 如果有报错信息一定记录下来(无论是拷屏还是手工记录),留下第一手资料,而且希望在现场告诉用户,让用户将来也做到这点,帮我们收集第一手资料。

– 询问故障发生前后所做过的操作。

– 如果需要,先检查硬件连接,重新装配连接,确认故障有什么变化。

– 升级所有微码、驱动(请一定阅读微码或者驱动说明文件中重要章节,确认用正确步骤升级有关微码和驱动),观察故障变化情况。如问题解决,再次收集信息。

– 最小化配置 ( 参阅 HMM 有关最小化配置章节 ) 。

• 如果最小化配置情况下系统正常,遵循每次添加一个部件,启动系统确认正常再添加一个备件的原则。

• 如果最小化配置情况下,依旧故障,记录故障情况,尽量按照一次更换一个备件的原则定位故障部件。

– 如果问题解决,再次收集信息。

– 如果问题没有解决 , 一定要在离开现场之前收集完整的日志信息及时将情况反馈给 CAG 。

– 收集信息后,清空日志。

– 将一些信息收集工具留给客户,告诉用户怎么使用,从单个 Case 来说,工程师多付出一点,但是从大局来看,将来我们可以直接从用户手里获得有关日志,加快工程是修复故障机的速度。

• 升级所有微码、驱动

http://www-304.ibm.com/systems/support/supportsite.wss/docdisplay?lndocid=MIGR-4JTS2T&brandind=5000008

• 最小化配置 ( 电源,系统启动 ) 测试

– 保留 1 个 cpu ,最小启动内存(有些机器用 1 根内存,有些机型必须 2 根成对使用),阵列卡,必须拔掉外围所有部件(包括鼠标、键盘、显示器,特别是一些非 IBM 部件),必要是不安装开关,使用主板强制开关跳线开机。

• 注意事项:

– 升级微码过程中不要断电,重新启动操作。

– 作系统硬件操作的时候一定要拔掉电源线等连接线,防静电等等。

– 操作有可能导致数据丢失,提醒备份数据。

1.5 确认后关闭

• 确认操作的有效性

– 问题是否解决?是否需要观察?

– 如果问题没有解决 , 一定要在离开现场之前收集完整的日志信息,及时将情况反馈给 CAG 。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关问题

X社区推广