哎,出问题了,凌晨三点,从系统上线差不多有四年了,四年过后,我们这边的ibm p750运行有1300多天,不知怎么的?这次出问题了,看日志吧!幸好是双机,业务未受到影响,还是核心业务,正常发生了切换,这是比较幸运的啦,这次又得分析了。因为作为AIX系统管理员的最大职责是保障Power服务器稳定运行,看到Power稳定运行的天数持续增长,是 AIX系统管理员最开心的事儿。不用经常因为服务器宕机,半夜赶到公司处理故障以及加班、熬夜。
大伙做运维的,都希望自己负责运维的小型机,能稳定运行,别出啥叉子。借此,我想知道大家再运维Power的时候,系统管理员们:您运维的小型机最长多久无故障,无宕机?
希望做运维的朋友们,能回忆回忆,自己运维的小型机,稳定运行了多久了?
追加一个问题:
1、平日运维I管理员的朋友们。你们是如何保障自己运维的服务器稳定运行的,平时做哪些事情来保障Power系统稳定运行(比如用性能监控工具、每天巡检之类)。希望能有一些总结。给我们运维朋友们一些借鉴!
再次表示感谢!
同样p750服务器,依据ibm gdpc架构搭建的双活系统,从2012年12月上线至今未宕过机,还成功经历了多次双活切换演练,ibm p系列服务器和db2 purescale还是很牢靠的
收起最近听说,微软的Azure云宕机了,部分华东和华北用户在打开管理门户时出现问题。
相信每当听到这个消息的时候,最能引发关注或共鸣的就是系统管理员或运维人员。我不由自主的看了一下我的VIOS的uptime,结果显示1476days,心中彻喜一下。
作为开发测试环境是对系统稳定性要求不那么高的,但如果是生产系统,任何天灾人祸引起的系统故障或宕机都是事故,要向主管部门汇报。人祸相对好追责些,至于天灾嘛……要么是软件系统设计问题,要么是硬件的设计或质量问题。这点上,老实说对Power还是比较有信心的。不论System P本身的硬件设计还是AIX系统的稳定性,都比较过关。
收起这是以整套系统算的?比如双机系统,有一个单机在中途重启算过不算连续运行?x86单机的Windows系统连续几年没重启的我也见过。
收起自己运维的服务器三年未停过机。顺便分享一下自己的经验,仅供参考。
时光飞逝,自己作为IT运维工程师已经有六七个年头了。下面分享一下自己的运维经验,如对大家有一定的帮助,吾心甚慰。一句IT届名言,痛入骨髓,“少壮不努力,长大搞IT”。然后自己就进入了这个行业。因为运维时的设备比较单一,就那几种机型,所以自己就经常看看这些红皮书。平日里,在系统没有什么变更或更换备件时就登录机器查看有没有什么指标不在合理范围内。如有不在就去查看引起这些问题的原因,比如看红皮书,toubleshooting,逛论坛等。这样慢慢自己的技术就有所提升,设备出现问题时就能第一时间解决,保证系统的稳定运行。