myciciy
作者myciciy·2017-03-13 09:33
IT顾问·某金融科技公司

【案例分享】客户P520小机宕机,这锅我不背

字数 526阅读 4197评论 0赞 0

当年,本人还是一个集成仔,风里来雨里去给客户送糖送水。一天P520服务器电源需要跟换,手下小弟没来,我就亲自上了,好久没自己上了,态度还是蛮重视。我刚换完,问下客户DBA好了没有,小D很高兴的跟我说OK。谁知没过几分钟,机器谈了。。。悲剧,小D跟我说:兄弟大意了吧!我当时也懵逼了,可是一想这锅一背,客户这混不下去是小,面子丢大发了。找原因,先把备机起来了,不影响人家使用,然后详细找原因。

大致过程

1、查系统各种日志,看看是否有异常?有异常是什么方面的异常?软件 or 硬件?

2、通过nmon分析当时系统是个什么状态,发生了些什么;

3、查审计,当时谁都在连在这儿,干了些什么;

4、查oracle数据库,当时你干了啥,有人强迫你吗

5、收集证据,接近真相

原因:

不是换电源的问题,是换了电源后,一开发哥们把一不完善的脚本执行了,结果是造成内存很CPU狂飙,最终系统撂挑子不干了,倒霉的我差点背锅。

最终,客户说兄弟不错啊,可还是我请客户那边屌丝兄弟吃的饭!

教训:

守规矩,平时多一点保护自己意识和行动,干事全面细致一点,懂的多方能从容,关键自己要对自己有信心,遇事沉着冷静!

来自社区交流活动“起底宕机事故-深度剖析宕机真相”,由社区会员“mmsc5166”发布。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

AIX系统故障案例集锦
IBM Power AIX PowerHA PowerVM PowerVC IBM flashsystem SVC Storage 等相关技术案例

作者其他文章

相关问题

X社区推广