当年,本人还是一个集成仔,风里来雨里去给客户送糖送水。一天P520服务器电源需要跟换,手下小弟没来,我就亲自上了,好久没自己上了,态度还是蛮重视。我刚换完,问下客户DBA好了没有,小D很高兴的跟我说OK。谁知没过几分钟,机器谈了。。。悲剧,小D跟我说:兄弟大意了吧!我当时也懵逼了,可是一想这锅一背,客户这混不下去是小,面子丢大发了。找原因,先把备机起来了,不影响人家使用,然后详细找原因。
大致过程
1、查系统各种日志,看看是否有异常?有异常是什么方面的异常?软件 or 硬件?
2、通过nmon分析当时系统是个什么状态,发生了些什么;
3、查审计,当时谁都在连在这儿,干了些什么;
4、查oracle数据库,当时你干了啥,有人强迫你吗
5、收集证据,接近真相
原因:
不是换电源的问题,是换了电源后,一开发哥们把一不完善的脚本执行了,结果是造成内存很CPU狂飙,最终系统撂挑子不干了,倒霉的我差点背锅。
最终,客户说兄弟不错啊,可还是我请客户那边屌丝兄弟吃的饭!
教训:
守规矩,平时多一点保护自己意识和行动,干事全面细致一点,懂的多方能从容,关键自己要对自己有信心,遇事沉着冷静!