系统运维人员如何解决突发性故障?

任何计算机系统都有出现故障的时候,可能发生在测试阶段,也可能发生在系统刚刚上线,还可能发生在已经稳定运行很多年的系统上。这些系统出现故障所带来的负面影响可大可小,小到一个终端的软件无法使用,大到整个系统瘫痪……企业网络想要固若金汤是IT部门梦寐以求的目标,作为系统运维人员,应该如何解决这些突发性故障问题?

某上市公司系统工程师分享一个案例

记一次突发性故障

作为一名IT运维人员,工作中最常发生的系统方面的故障是很正常的一个现象,并且你永远也不会知道下一次故障发生在什么时候,采访时了解到,系统工程师现阶段公司的系统运维已经做的比较成熟了,目前来看,系统底层还是比较强健的,真正出问题的都是系统之上的"应用",由于每种应用不同,所以并不是太好谈哪一种应用会经常出问题。

不过,在前不久,公司发生了一次较大故障,故障成因很简单,就是由于空调物理机损坏,导致多台服务器过热,部分业务中断。在更换新的空调之后问题得以解决。当然,在没有更换之前,当时也采用了一些"笨办法",比如使用大功率的风扇、开启机房的排气窗等等,暂时缓解了空调损坏造成的不良影响。
故障处理那些事儿。

出现故障的同时必然会造成一些业务的中断,可想而知,若是故障得不到及时的处理,那么公司网络将会处在一个"瘫痪"的状态,这将是很可怕的事情,后果不堪设想。幸好九叔所在的运维团队发现问题很及时,在机房中安装有温度报警系统,温度达到阀值后会给相关运维人员发送短信。比较棘手的是,这次故障的根本原因是空调坏了,而不是常见的断电、瞬间电流过大等情况。由于出问题的这个机房的服务器没有线上业务,因此实际造成的损失并不大,但是影响不太好。

对于类似故障处理,大概遵循以下几个大的方向。

1、收到报警或定期巡检;
2、检查是否误报;
3、确认报警内容属实进行相应处理;
4、检查是否有预案,如有则按照预案处理,如无则尽快联系厂商处理,同时对此事备案。

在处理问题环节,如果在自身团队无法处理的时候,会及时和厂商联系,获取更专业的支持。

故障后的思考与总结

俗话说,吃一堑长一智,出现故障不可怕, 可怕的是不能从故障中得到一些经验教训。谈到:"对于系统运维来说,不仅仅要关注软件层面的问题以及运维,同时对于基础IT建设也要有一定的了解,最起码要知道出现问题应该找谁解决。随着现阶段技术的发展,我们不可能做到一个人对所有技术面面俱到,那么在无法解决问题的时候,如何找到解决问题的人,应该是每一个系统运维人员所必须要了解的。

空调故障的问题偶然性很强,但是依然有方法避免,那就是采取硬件服役到一定年限后更换,而不是等它彻底损坏后再更换。但是这种方法会带来很多额外的费用支出,一般来说,在企业中推行这种方法需要IT部门有一个强有力的后盾去支持才能较好的达到预期效果。

还有一点是值得注意的,不管具体是什么故障,做好预案和备案最重要,以防止这种问题再次发生,或者再次发生后,也可以极为快速地去解决问题。
参与5

4 同行回答

neuq_lsj neuq_lsj 系统运维工程师 sdc
个人觉得,要杜绝这类问题需要反思整体架构设计以及综合监控。在整体架构设计上,任何系统都应该尽量考虑到冗余的设计,上至高压配电,广域网链路,下至各类设备,以及跑在上面的应用。这回你碰到的是制冷系统的故障,那么下次新风系统,供电系统,消防系统出问题了又该怎么办呢。当主备数...显示全部
个人觉得,要杜绝这类问题需要反思整体架构设计以及综合监控。在整体架构设计上,任何系统都应该尽量考虑到冗余的设计,上至高压配电,广域网链路,下至各类设备,以及跑在上面的应用。这回你碰到的是制冷系统的故障,那么下次新风系统,供电系统,消防系统出问题了又该怎么办呢。当主备数据中心,同城灾备已经成了一种趋势时,这些问题都是值得我们深思,至少我们可以将机房,核心设备分区域放置,不把鸡蛋都放在一个篮子里。 其实你的这次故障还是很危险的,长时间空调故障会导致服务器风扇功率大幅增长,个别服务器宕机还算事小,背后的UPS能否扛得过去才是关键。我之前有一次碰到空调故障,UPS利用率较之前正常值高了20%,想想就后怕。 收起
银行 · 2013-05-24
浏览1585
zhenzongjian zhenzongjian 软件开发工程师 na
应该建立完善的应急制度..显示全部
应该建立完善的应急制度.. 收起
互联网服务 · 2013-05-23
浏览1546
午夜幽魂 午夜幽魂 系统运维工程师 计算机有限公司
运维巡检不只能担担靠乙方来做,必竟乙方不能天天在现场看着,做为甲方的IT人员每天都应该关注系统的运行情况,很多故障都是因为先期发现不及时带来的问题,出了问题不是一味的找责任人,而是要关心如何更好更快的解决问题。维护给了第三方,自己就不再管的甲方大有人在,出了问题就是...显示全部
运维巡检不只能担担靠乙方来做,必竟乙方不能天天在现场看着,
做为甲方的IT人员每天都应该关注系统的运行情况,
很多故障都是因为先期发现不及时带来的问题,
出了问题不是一味的找责任人,而是要关心如何更好更快的解决问题。
维护给了第三方,自己就不再管的甲方大有人在,出了问题就是只会欠怒于第三方的工作有问题,
实在是让人厌恶 收起
系统集成 · 2013-05-23
浏览1555
yukay2010 yukay2010 系统工程师 神州数码系统集成服务有限公司
学习了!显示全部
学习了! 收起
系统集成 · 2013-05-23
浏览1590

提问者

eric
eric 6 19 38
系统运维工程师 某金融单位
擅长领域: 云计算服务器私有云
评论1072

问题状态

  • 发布时间:2013-05-23
  • 关注会员:1 人
  • 问题浏览:4701
  • 最近回答:2013-05-24
  • X社区推广