系统管理员朋友们:我运维的服务器已经稳定运行1300多天了,您的呢?

哎,出问题了,凌晨三点,从系统上线差不多有四年了,四年过后,我们这边的ibm p750运行有1300多天,不知怎么的?这次出问题了,看日志吧!幸好是双机,业务未受到影响,还是核心业务,正常发生了切换,这是比较幸运的啦,这次又得分析了。因为作为AIX系统管理员的最大职责是保障Power服务器稳定运行...显示全部

哎,出问题了,凌晨三点,从系统上线差不多有四年了,四年过后,我们这边的ibm p750运行有1300多天,不知怎么的?这次出问题了,看日志吧!幸好是双机,业务未受到影响,还是核心业务,正常发生了切换,这是比较幸运的啦,这次又得分析了。因为作为AIX系统管理员的最大职责是保障Power服务器稳定运行,看到Power稳定运行的天数持续增长,是 AIX系统管理员最开心的事儿。不用经常因为服务器宕机,半夜赶到公司处理故障以及加班、熬夜。

大伙做运维的,都希望自己负责运维的小型机,能稳定运行,别出啥叉子。借此,我想知道大家再运维Power的时候,系统管理员们:您运维的小型机最长多久无故障,无宕机?

希望做运维的朋友们,能回忆回忆,自己运维的小型机,稳定运行了多久了?

追加一个问题:

1、平日运维I管理员的朋友们。你们是如何保障自己运维的服务器稳定运行的,平时做哪些事情来保障Power系统稳定运行(比如用性能监控工具、每天巡检之类)。希望能有一些总结。给我们运维朋友们一些借鉴!

再次表示感谢!

收起
参与292

查看其它 38 个回答wanggeng的回答

wanggengwanggeng  系统运维工程师 , 某银行

最近听说,微软的Azure云宕机了,部分华东和华北用户在打开管理门户时出现问题。

相信每当听到这个消息的时候,最能引发关注或共鸣的就是系统管理员或运维人员。我不由自主的看了一下我的VIOS的uptime,结果显示1476days,心中彻喜一下。

作为开发测试环境是对系统稳定性要求不那么高的,但如果是生产系统,任何天灾人祸引起的系统故障或宕机都是事故,要向主管部门汇报。人祸相对好追责些,至于天灾嘛……要么是软件系统设计问题,要么是硬件的设计或质量问题。这点上,老实说对Power还是比较有信心的。不论System P本身的硬件设计还是AIX系统的稳定性,都比较过关。

银行 · 2016-04-19
浏览5745

回答者

wanggeng
系统运维工程师某银行
擅长领域: 服务器存储数据库

wanggeng 最近回答过的问题

回答状态

  • 发布时间:2016-04-19
  • 关注会员:40 人
  • 回答浏览:5745
  • X社区推广