哎,出问题了,凌晨三点,从系统上线差不多有四年了,四年过后,我们这边的ibm p750运行有1300多天,不知怎么的?这次出问题了,看日志吧!幸好是双机,业务未受到影响,还是核心业务,正常发生了切换,这是比较幸运的啦,这次又得分析了。因为作为AIX系统管理员的最大职责是保障Power服务器稳定运行,看到Power稳定运行的天数持续增长,是 AIX系统管理员最开心的事儿。不用经常因为服务器宕机,半夜赶到公司处理故障以及加班、熬夜。
大伙做运维的,都希望自己负责运维的小型机,能稳定运行,别出啥叉子。借此,我想知道大家再运维Power的时候,系统管理员们:您运维的小型机最长多久无故障,无宕机?
希望做运维的朋友们,能回忆回忆,自己运维的小型机,稳定运行了多久了?
追加一个问题:
1、平日运维I管理员的朋友们。你们是如何保障自己运维的服务器稳定运行的,平时做哪些事情来保障Power系统稳定运行(比如用性能监控工具、每天巡检之类)。希望能有一些总结。给我们运维朋友们一些借鉴!
再次表示感谢!
同样p750服务器,依据ibm gdpc架构搭建的双活系统,从2012年12月上线至今未宕过机,还成功经历了多次双活切换演练,ibm p系列服务器和db2 purescale还是很牢靠的
收起最近听说,微软的Azure云宕机了,部分华东和华北用户在打开管理门户时出现问题。
相信每当听到这个消息的时候,最能引发关注或共鸣的就是系统管理员或运维人员。我不由自主的看了一下我的VIOS的uptime,结果显示1476days,心中彻喜一下。
作为开发测试环境是对系统稳定性要求不那么高的,但如果是生产系统,任何天灾人祸引起的系统故障或宕机都是事故,要向主管部门汇报。人祸相对好追责些,至于天灾嘛……要么是软件系统设计问题,要么是硬件的设计或质量问题。这点上,老实说对Power还是比较有信心的。不论System P本身的硬件设计还是AIX系统的稳定性,都比较过关。
收起