案例分享5:诡异的交换机故障。

2013-3-4日15:02,值班人员发现协同平台等业务出现无法访问的情况,通过PING发现多台服务器无法PING通,到机房中发现服务器状态均正常,但是网络无法访问,检查B,El两排服务器机柜汇聚交换机cisco3750发现交换机上所有的工作端口指示灯均为黄色,登录到交换机中可以正常操作,初步判定...显示全部

2013-3-4日15:02,值班人员发现协同平台等业务出现无法访问的情况,通过PING发现多台服务器无法PING通,到机房中发现服务器状态均正常,但是网络无法访问,检查B,El两排服务器机柜汇聚交换机cisco3750发现交换机上所有的工作端口指示灯均为黄色,登录到交换机中可以正常操作,初步判定交换机故障。临时启用了一台备用交换机,在配置备用交换机的过程中,发现出问题的两台交换机中的工作VLAN配置丢失。由于此时B排机柜已经更换上了备用交换机,所以暂时先把B排机柜的业务切换到了备用交换机上,将E排服务器交换机中丢失的两个VLAN信息 vlan4 vlan5配置上后业务恢复正常,此时询问各个分厂,大部分地区都恢复正常,但是仍有部分单位出现问题。包括
销售公司办公楼,轧钢楼,热轧,自控处,烧结。到自控处现场发现交换机cisco3750出现和核心机房一样的状况,工作端口指示灯为黄色,进入交换机内工作vlan26信息丢失,重新配置上后业务恢复正常,之后有分别到热轧,烧结,轧钢楼,销售公司办公楼,情况都是一样,cisco3750交换机内的工作VLAN信息丢失。重新配置VLAN信息后业务全部恢复,
此次突发故障有以下特点
1, 几乎为同一时间段购买的cisco3750交换机。
2, 故障状况均为工作VLAN信息丢失。其他的默认VLAN信息和端口配置等信息都没有改变。
3, 发生时间比较集中,几乎是在同一时间段

   由于此次突发故障情况特殊且影响面较大。我们从以下角度对故障发生的可能性做了分析,

一. 病毒:
1, 交换机感染病毒,目前,还没有明确的信息显示有运行在交换机等网络设备上的病毒,所以交换机本身感染病毒丢失信息的可能为性很低。
2, 计算机感染病毒修改交换机配置,一般计算机病毒所引发的网络问题主要体现在对网络中发送错误的数据包或者海量数据包,产生对网络的堵塞或者加大交换机的处理量导致交换机瘫痪,一般这种病毒产生时重启交换机会有短时间的恢复正常,而且也不会造成配置的丢失。而要实现这种对配置的部分修改则需要病毒分别破解掉上诉交换机的密码,登录到交换机中去挑选出工作VLAN并且删除,保存。这样的操作即使是人工操作也是具有很大的困难的。所以计算机感染病毒的可能性也基本排除
二,人为操作:
1, 由于此次发生故障的交换机分散在不同的区域,要实现人工操作,就必须操作人拥有能够全网访问的权限,而这样的权限只有核心机房中的服务器和部分维护人员拥有。
2, 此次故障发生在不同的交换机上,这些交换机又都使用着不同的管理密码,要像对这些交换机进行修改就必须破解掉所有的交换机密码。
3, 这些交换机中丢失的均为工作VLAN,而其他的配置都没有改变。如果有权利登录到设备中进行配置修改,完全可以做出更大的破坏和修改导致整个设备的瘫痪。
4, 上诉交换机几乎是在同一时间段发生的故障。而当vlan信息丢失后网络也随之断开,这样设备就无法保存,设备重启后应该是恢复正常的。可是出现故障的交换机却在重启后问题依旧。
综合上诉情况,交换机被人为修改的可能性也几乎为0
三:
生成树协议,我们的网络中并没有启用生成树协议,但有些拿不准是否完全禁用生成树协议了,可以肯定的是故障发生时,网络管理人员一定没有在对网络设备进行操作。暂时怀疑生成树协议混乱,自动同步了一部分设备的VLAN信息造成多个设备的vlan信息丢失。

收起
参与5
  • faye  faye
    最终没有确认原因?
    2017-05-25
  • 没有明确的原因,不过大概最后分析的结果怀疑是在事件不久前网里新加了一台新购买的CISCO交换机,可能是他引起的里部分交换机的VLAN信息同步造成vlan丢失。
    2017-05-26

返回q6828616的回答

q6828616q6828616需求分析师某电信

排除法,哈哈,其实我第一时间感觉也是设备出了硬件故障(^_^)v

增值通信服务商 · 2018-11-19
浏览1245

回答者

q6828616
需求分析师某电信
擅长领域: 网络

q6828616 最近回答过的问题

回答状态

  • 发布时间:2018-11-19
  • 关注会员:2 人
  • 回答浏览:1245
  • X社区推广