那是几年前,一月的一天我和两个同事给某电视台下属企业做aix系统升级,从5.2升级到5.3。
升级前:
做了数据库10.2.0.5(前期从10.2.0.4升级过来)、系统等各种备份,操作流程、应急预案也审查了几回,一切没问题。
升级中:
一切都很顺利。注意升级前升预升级,等跑了没事再commit。
有存储的,注意要不要升级多路径软件,尤其是aix大版本升级。
有数据库的,也要看看要升级的版本和现在的数据库版本有没有BUG、性能缺陷之类的。
升级后: 出事了
升级后,应用、开发、系统、数据库、网络、客服中心联测系统正常,准备收工走人。这时客户一运维经理说,你们把系统中之前备份的数据、老旧没有用清理一下。客户有要求,那还能说不吗,干呗。正好,同事之前传补丁的ftp程序还在,就删吧,当时心想,图形化有点危险的啊,老鸟应该没事。
删着删着同事说:不好了,有个重要的配置文件被删了。 没过几分钟,客户那就有部门反应生产系统刷不了数据,查看不了产品了。
那就恢复呗,要命的是恢复不了了。。。
1、smitty mksysb备了系统,没备这个目录,恢复不了
2、其他地方还有备份不,没有
3、配置文件内容设置很多,有些老应用好多年经历了好多人,有的已经离职了,现在的人客户经理不敢保 证100% 恢复
4、早晨6:00客服中心就要开始上线了,一旦出问题,会影响当天生产。
我们和客户都急的要死。
解决:
突然,我想起开始做之前,我上去做升级前检查好像cat了这个文件,还问了客户相关问题。
赶快退出SecureCRT,查看保存的日志(因为我有个习惯,喜欢记录会话,方便写文档和回溯)
新建配置文件,把日志中之前cat的内容拷贝到创建的文件中,改好属性、权限。
之后,重启应用,联测正常。
教训:
1、图形化用之慎之;
2、还是做好全面备份,不放过任何死角;
3、留痕很重要,有时能“救命”;
4、沟通很重要,和客户沟通足够透彻,因为客户的系统客户最熟悉