客户P520小机宕机,这锅我不背

当年,本人还是一个集成仔,风里来雨里去给客户送糖送水。一天P520服务器电源需要跟换,手下小弟没来,我就亲自上了,好久没自己上了,态度还是蛮重视。我刚换完,问下客户DBA好了没有,小D很高兴的跟我说OK。谁知没过几分钟,机器谈了。。。悲剧,小D跟我说:兄弟大意了吧!我当时也懵逼了,可是...显示全部

当年,本人还是一个集成仔,风里来雨里去给客户送糖送水。一天P520服务器电源需要跟换,手下小弟没来,我就亲自上了,好久没自己上了,态度还是蛮重视。我刚换完,问下客户DBA好了没有,小D很高兴的跟我说OK。谁知没过几分钟,机器谈了。。。悲剧,小D跟我说:兄弟大意了吧!我当时也懵逼了,可是一想这锅一背,客户这混不下去是小,面子丢大发了。找原因,先把备机起来了,不影响人家使用,然后详细找原因。

大致过程

1、查系统各种日志,看看是否有异常?有异常是什么方面的异常?软件 or 硬件?

2、通过nmon分析当时系统是个什么状态,发生了些什么;

3、查审计,当时谁都在连在这儿,干了些什么;

4、查oracle数据库,当时你干了啥,有人强迫你吗

5、收集证据,接近真相


原因:

不是换电源的问题,是换了电源后,一开发哥们把一不完善的脚本执行了,结果是造成内存很CPU狂飙,最终系统撂挑子不干了,倒霉的我差点背锅。

最终,客户说兄弟不错啊,可还是我请客户那边屌丝兄弟吃的饭!

      

教训:

守规矩,平时多一点保护自己意识和行动,干事全面细致一点,懂的多方能从容,关键自己要对自己有信心,遇事沉着冷静!

收起
参与36

查看其它 3 个回答cloudy的回答

cloudycloudy软件开发工程师沈阳天华

p520为什么不能单电源支撑高负载运行?那设计双冗余电源的作用在哪儿?是设计问题还是操作失误?这是我的质疑?

互联网服务 · 2017-03-02
浏览2482
  • 最简单一点,你单电源坏了就是坏了,双电源至少保障机器不停。 双电源主要考虑我想有两点:1、硬件本身坏了,比如电源两个坏一个,还能跑; 2、一般机房都是两路供电,一路坏了还有一路。 这个分享首先不是我操作失误,根本原因是客户开发搞得应用导致资源耗尽。
    2017-03-03

回答者

cloudy
软件开发工程师沈阳天华
擅长领域: 服务器存储Unix

cloudy 最近回答过的问题

回答状态

  • 发布时间:2017-03-02
  • 关注会员:8 人
  • 回答浏览:2482
  • X社区推广