做运维 和MA几年来总结了一些经验和大家分享:
1,客户类型,系统紧要程度,金融用户就比较紧张,一些中小企业相对没有那么大的压力,维护现场气氛不要过于凝固,往往在轻松的环境效率会更高,在新华社一次小机宕机,备机没有接管,我当时有一点紧张,第一接触比较紧急的case,领导说不用管那么多按照你的思路在做,支持你。给你很大的鼓励,干活也轻松了。查资料都很自如,思路都没有问题,很快把问题处理了,不要因为客户着急,催促,某某大领导站在后面,不用怕,他们不懂。你只要说出你处理和思路和预期结果就行。
2,处理方法:比如小机power服务器更换备件,准备的东西,系统能起来一定做系统备份,我们也督促客户做系统备份,客户就让现场工程师来备份太浪费时间,时间紧急没有备份,系统恢复用了3个小时,不备份的系统不做变更,特别涉及到停机的,一个忠告:不要打破自己的底线,否则受伤是自己,处理故障出了意外,不要抱怨太多,安心总结经验,会更好。下次客户还会认可你。
小机故障定位 硬件和软件要首先判断出来,然后硬件的问题,集中几个问题,内存,风扇,电源,几类常规报错的现场要记住,机器不起机,80%来自内存,风扇,电源等,几率排查,这些都失效,考虑VPD ,根据手册去查,没有一个人对所有故障了如指掌的,业内一些专家一个建议,一个忠告有可能就能拯救你,比如换存储电池,等电池彻底失效在去更换,提示后自己操作事半功倍。在圈里慢慢成长。处理过的case 自己做一个自己的case库。
故障分析:对一些不可控的故障,不要随便操作,超出自己范围让公司去协调其他人,自己不要随便玩,客户也不会说你技术差,case 不要留一半。做操作信息收集全,不要急躁,不要蛮干,有时候更换东西的心里总是祈祷,上帝会帮助我,每次成功都会有成就感。
对维保的吐槽和建议:
操作习惯:停机操作,关机后看HBA卡,电源灯是不是灭了。然后在操作,微小的环节也要注意,按照正规的流程去操作,没有解决不了的问题,不用担心故障多大,始终遵守规则,不乱操作。多方协商。如果有人故意强调多少时间必须完成,你可以告诉他,我可以按照流程和规范操作具体多长时间,我无法估计,会尽快的搞好。最好留一个机器窗口这样减少误操作,很多大故障都是误操作造成的。
特别是数据丢失的恢复,这个远远比硬件困难,文件系统丢失,磁盘阵列信息丢失,数据库文件丢失,要做好充分准备在去操作,必须时让数据专家到现场恢复,一旦数据灾难超出自己能力范围,不要错上加错,小心驶得万年船,会让你的运维变得更轻松,升级也会很容易。 希望以上经验会帮助大家。
操作手册准备:升级难度大的,必要操作手册,减少失误,必须经过测试在去现场实施,否则故障来的突然无法控制。