myciciy
作者myciciy·2016-12-12 11:06
IT顾问·某金融科技公司

案例:一次日常停机维护出现故障

字数 1026阅读 4124评论 0赞 0

记得六七年前了,一次正常的停机维护,本来估计比较简单的事情,为了不影响第二天正常业务工作的开展,申请晚上实施停机维护,而且当时非常乐观的跟家人说10点前就能到家。结果此次工作一直持续到凌晨3点多才结束,等回到家已经快凌晨4点了。

大致过程是:按照计划,晚上18点左右开始停机更换配件实施维护,由于生产系统涉及数据灾备环境,停机过程相对比较复杂。所以,操作人员在机房操作,我就等着,可是等到过了9:30分还没有稍息,就过去问了一下,工作人员告知数据库(当时用的是9I)起不来说再试试,那就 再试试吧。结果到了11点左右了还是没有处理好,就要求他们公司再安排人员支持,不能影响第二天的业务工作正常开展。结果等他们联系到更有能力的数据库工作人员赶来现场,已经半夜1点左右了,马上展开恢复工作,经检查数据库出现问题不能正常起动,需要先恢复数据,当时还想我们有数据级灾备呀,可是经检查备份的数据也是不可用的,还好当时还有每天导出的数据文件,最后通过这个导出的数据文件恢复了数据库,整个过程一直持续到凌晨3点多,又经过测试基本业务都可以正常使用,没有影响上班后的业务开展。

事后,经过检查分析,可能是某个应用开发调试人员在做某一个应用测试时打数据库的一个参数开关(可能是归档方式),它本应该在使用完成后再关上,却忘记了,而且直接导致数据备份文件出现问题,才导致了本次问题的出现。

事情虽然得到的及时处理,没有影响第二天的业务工作,但有几个问题值得我们思考:

一个是从业人员的自身素养问题,如何通过提高自身各方面素养来避免工作中的一些问题;二是对于各操作人员的管理,不论是系统管理人员,应用开发人员等,如果有一套统一的,规范的管理办法是多么的重要。再一个就是对于数据灾备的管理,即使是技术方案考虑的再好,如果实施管理没有跟上,也是形同虚设。

特别是经历过信息系统等级保护测评整改的反复过程,更认识到规范工作,规范管理的重要性,但目前还有太多从事信息运维相关工作的同仁还没有这些认识。不知大家在日常的工作,管理过程中,都是怎么开展工作的?都是如何避免此类问题的发生?是否有一套规范在指导日常工作?等等吧,希望大家能够共同分享,共同提高我们的信息管理水平。


本案例来自社区交流活动http://www.aixchina.net/activity/?id=429

由社区会员冷学峰发布

更多交流互动内容可参考:http://www.aixchina.net/Question/223529

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

AIX系统故障案例集锦
IBM Power AIX PowerHA PowerVM PowerVC IBM flashsystem SVC Storage 等相关技术案例

作者其他文章

X社区推广