1.1 准确描述问题
• 信息获得
– 途径:使用者、代理商、了解情况的人、 ……
– 目的:获得第一手资料
• 有效沟通方式
– 有效倾听
• 做记录,不要打岔等
– 有效发问 , Questioning is a key skill
• 思路清晰,针对不同类型用户问不同类型问题
– 可以通过规范表格,收集有效信息
• 故障情况
– 客户通过什么信息认为有问题
– 从正常状况到故障状况,做了什么操作,软件和硬件的变化
– 有没有规律 ( 了解什么时间发生 , 发生什么问题 , 发生后做过什么操作 )
• 分析信息
• 有效组织信息
• 确定问题
• 给客户描述问题
– 目的:确认双方对问题理解的准确性、一致性
1.2 收集信息
• 故障设备信息
– 了解产品类别
– POST beep code , POST error code
– Check Point 显示代码
– 故障状态下屏幕信息
– LPD ,及系统其它部件故障灯状态
– 收集各种可获得的日志
– 软件和硬件的信息 (DSA)
1.3 分析问题
• 分析问题过程中,确定问题是否属于支持范围之内
• 明确我们能做到什么,做不到的可以给用户什么建议
• 如果不属于服务范围,要恰到好处 ”Say No”
• 具体分析问题
• 确认服务器的用电环境(输入电压 200V-240V, 零点电压 0-3.3V )
• 确认硬件配置合法性
• 确认 NOS 兼容性
• 分析日志
• 维修记录
• 查阅 Retain 和 GCG Tips DB, 是否属于已知问题
• 硬件维护手册是否有相关帮助信息
• PMR 是否已经有相关问题的报告
• 查阅第三方 Knowledge Base, 是否属于已知问题
1.4 现场操作步骤
• 步骤
– 收集当前故障状态下日志 , 如果有报错信息一定记录下来(无论是拷屏还是手工记录),留下第一手资料,而且希望在现场告诉用户,让用户将来也做到这点,帮我们收集第一手资料。
– 询问故障发生前后所做过的操作。
– 如果需要,先检查硬件连接,重新装配连接,确认故障有什么变化。
– 升级所有微码、驱动(请一定阅读微码或者驱动说明文件中重要章节,确认用正确步骤升级有关微码和驱动),观察故障变化情况。如问题解决,再次收集信息。
– 最小化配置 ( 参阅 HMM 有关最小化配置章节 ) 。
• 如果最小化配置情况下系统正常,遵循每次添加一个部件,启动系统确认正常再添加一个备件的原则。
• 如果最小化配置情况下,依旧故障,记录故障情况,尽量按照一次更换一个备件的原则定位故障部件。
– 如果问题解决,再次收集信息。
– 如果问题没有解决 , 一定要在离开现场之前收集完整的日志信息及时将情况反馈给 CAG 。
– 收集信息后,清空日志。
– 将一些信息收集工具留给客户,告诉用户怎么使用,从单个 Case 来说,工程师多付出一点,但是从大局来看,将来我们可以直接从用户手里获得有关日志,加快工程是修复故障机的速度。
• 升级所有微码、驱动
• 最小化配置 ( 电源,系统启动 ) 测试
– 保留 1 个 cpu ,最小启动内存(有些机器用 1 根内存,有些机型必须 2 根成对使用),阵列卡,必须拔掉外围所有部件(包括鼠标、键盘、显示器,特别是一些非 IBM 部件),必要是不安装开关,使用主板强制开关跳线开机。
• 注意事项:
– 升级微码过程中不要断电,重新启动操作。
– 作系统硬件操作的时候一定要拔掉电源线等连接线,防静电等等。
– 操作有可能导致数据丢失,提醒备份数据。
1.5 确认后关闭
• 确认操作的有效性
– 问题是否解决?是否需要观察?
– 如果问题没有解决 , 一定要在离开现场之前收集完整的日志信息,及时将情况反馈给 CAG 。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞0
添加新评论0 条评论