技福小咖
作者技福小咖·2022-11-10 10:41
网络工程师·技福小咖

H3C 交换机设备使用维护技术之——信息收集办法及危险操作提示

字数 2460阅读 1901评论 0赞 0

在日常的网络故障维护中,接触最多的设备就是交换机。当网络中的交换机设备检查出存在状态异常时,我们需要及时地收集故障信息,再采取后续的处理措施。今天就给大家分享一下故障信息的收集办法以及一些高危操作的风险提示。

收集与反馈故障信息

故障信息的收集主要包括如下四大个方面 :

  1. 日志信息 :系统产生的日志信息。
  2. 故障基本信息 :故障发生时间、故障具体现象、故障严重程度和影响的业务范围、故障点网络拓扑结构、故障后已采取措施和结果等信息。
  3. 诊断信息 :发生故障的设备的名称、版本、当前配置、接口信息等。
  4. 收集的其他信息 :网络设备后连接在交换机上的业务系统、主机、存储设备等信息的参考信息。

故障基本信息收集

设备出现故障时,首先需要采集故障的基础信息。

日志信息收集

交换机等设备的日志信息主要记录日常信息、用户操作、系统故障、系统安全和系统跟踪调试等信息,包括诊断监控日志、诊断日志、系统日志和调试跟踪日志等。

由于诊断日志、系统日志和调试跟踪日志在保存到文件前,先保存在文件缓冲区,为了获取最新日志信息,请先将收集到的日志信息保存到文件。

可以通过如下方式 获取日志信息 :

  • 将收集到的诊断日志信息保存到文件。

diagnostic-logfile save

缺省情况下,诊断日志文件路径为存储设备根目录 flash:/的 diagfile 文件夹。

  • 将收集到的系统日志信息保存到文件。

logfile save

缺省情况下,系统日志文件路径为存储设备根目录 flash:/的 logfile 文件夹。

执行完上述命令后,您可以在用户视图下使用 dir 命令确认日志文件是否正确生成,通过 FTP/TFTP/SFTP 等方式将日志文件传输到您的工作电脑,方便后续的查看和反馈。

诊断信息收集

登录到设备后,请执行 display diagnostic-information 命令,收集设备全部诊断信息,包括启动配置、当前配置、接口信息、时间、系统版本等。

当设备配置较多或者运行时间较长时,可能会产生较多的诊断信息,为了缩短诊断信息的收集时间,也可以执行 display diagnostic-information key-info 命令,收集设备关键诊断信息。

执行 display diagnostic-information 命令前,请使用 display cpu-usage、display

memory 命令查看 CPU、内存使用率。

如果 CPU、内存使用率过高,请暂时不要执行 display diagnostic-information 命令,等 CPU 和内存使用率回落后再执行。您可以通过如下方式获取诊断信息:

缺省情况下,诊断文件路径为存储设备的根目录 flash:/。

诊断文件生成之后,您可以在用户视图下使用 dir 命令确认诊断文件是否正确生成,通过 FTP/TFTP/SFTP 等方式将诊断文件传输到您的工作电脑,方便后续的查看和反馈。

无法登录设备的处理措施

以下所有处理步骤都基于一个前提,即用户的业务已经中断,因此不会造成进一步的影响。如果用户业务并未中断,请不要进行以下的任何操作。如果发现无法通过 Telnet 或 SSH 远程登录到设备进行操作,可以先尝试通过 Console 口登录到设备,检查并修改与 Telnet 或SSH 有关的配置。如果通过 Console 口也无法登录设备,则无法进行任何与命令行有关的操作,需要进行应急处理,具体处理步骤如下:

检查修复供电系统

如果发现设备或所有单板的指示灯都不亮,并且设备或所有单板的风扇都不转(可通过听声音辨别),有可能是供电系统出现故障。

  1. 检查电源模块的开关是否已打开。如果有多个电源模块,请保证使设备运行的电源模块开关均已打开。
  2. 检查设备指示灯状态是否正常,检查表示电源模块正常工作的指示灯是否点亮,初步判断电源模块是否存在输出短路、输出过流、输出过压、输入欠压、温度过热等问题。
  3. 如果电源模块输入异常,可通知电工检修机房/机架/机柜的供电线路,恢复供电;如果电源模块有异常,可尝试通过更换电源模块解决。

    如果以上检查都未发现问题,但设备或单板仍无法正常加电,请及时确定设备是否已损坏或寻求其他技术支持。

检查修改串口终端通信参数

请检查串口终端的通信参数是否与设备Console 口的通信参数一致,如果不一致,请修改串口终端的通信参数。缺省情况下,设备的 Console 口通信参数为 9600bps、8 位数据位、1 位停止位、无校验和无流控(如有修改,以修改后的参数为准)。

检查框式设备主控板

排除了供电系统和串口通信方面的原因后,则很有可能是主控板发生了故障。正常工作状态下:主控板对应指示灯 RUN 处于闪烁状态,ALM 处于灯灭状态。如果指示灯 RUN 处于灯灭状态,表示主控板有故障。

当主控板发生故障时,请参见下列步骤进行故障处理 :

  1. 检查主控板是否安装到位。可以重新拉出主控板,并将其重新插入,拧紧安装螺钉,保证主控板安装到位。
  2. 通过短按主控板的系统复位键(RESET,位于主控板最右侧)进行主控板复位,待主控板启动完成后,再次查看指示灯 RUN 是否亮起。
  3. 如果设备上有空闲的主控板槽位,可以尝试将主控板插入空闲的槽位,查看工作状态是否正常。
  4. 使用备件更换主控板。

复位设备

可尝试复位设备来解决问题。复位设备可通过关闭设备所有电源开关,三分钟后再打开设备开关的方法来实施。

高危操作警示

通常在在产品使用和维护过程中,所涉及到的可能会导致人身安全、设备故障、业务中断或异常的操作,包括硬件高危操作和命令行高危操作。要求运行维护人员在对设备进行操作前,请先了解可能带来的风险再进行操作,以降低事故发生率。

硬件危险操作

高危险的操作只能由有资质、且经过培训的维护人员执行。

软件危险操作

高危险的命令只能由有资质、且经过培训的维护人员执行。

好了,H3C 交换机信息收集办法及危险操作提示就讲介绍到这里,关注我学习更多网络实用技术。

懂技术就是有福气!感谢帮忙点赞分享,您的支持是我们最大的动力!

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广