光纤通道卡故障引发的系统宕机

某金融行业客户,业务系统采用P550小机双机HA+共享存储模式,一天业务高峰期准备切换窗口,业务报怎么也切换不过去,业务无法进行。运维接报后赶紧上P550去看,errpt查看错误日志,报其中一台光纤通道卡硬件故障,造成无法连接共享存储,马上上HACMP,准备先把资源切换到另一台服务器上去,...显示全部

某金融行业客户,业务系统采用P550小机双机HA+共享存储模式,一天业务高峰期准备切换窗口,业务报怎么也切换不过去,业务无法进行。运维接报后赶紧上P550去看,errpt查看错误日志,报其中一台光纤通道卡硬件故障,造成无法连接共享存储,马上上HACMP,准备先把资源切换到另一台服务器上去,这时候怪事出现了,无论怎么操作,资源就是切换不过去。这时候时间已经过去20分钟了,领导们听说这个事都赶过来了,围在周围商讨如何解决,同时急电IBM厂家技术支持立即赶往现场救火。

     在等待厂家技术支持的时间里,我们一面重新想办法切换,一边查阅系统建设时的设计方案跟拓扑图,检查是不是当时建设方案有什么纰漏,仔细排查系统问题,厂家技术支持到达后也跟着一起检查设计方案,细细检查了设计方案拓扑,终于发现问题:当初建设方案小机光纤通道卡存在单点故障,造成该卡故障以后依然占用资源未释放,热备机无法接管,以致业务系统宕机,无法处理业务请求。

   找出问题后,商定处理办法,重启光纤卡故障那台小机,释放占用资源,切换到另一台P550,重新接管资源,起应用系统,恢复业务处理,万幸的是业务终于可以运行了。看看时间,这时间已经过去一个小时了,相关外联单位的打来的电话已经打爆了,耽误了业务系统的处理,大家都走不了,万幸业务最终处理完了。后面在一个月食之夜对该业务系统进行升级变更,最终彻底解决了这个问题。

收起
参与77

查看其它 13 个回答chen78822的回答

chen78822chen78822软件开发工程师同方公司

几个方向:

1系统无多路径管理,只配置一块光纤卡,没有冗余,造成本机访问存储异常,业务异常,这是设计缺陷。

2光纤卡及磁盘参数没正确设置,光纤卡故障后,造成time out时间过长,使数据库及应用异常,存储资源释放不掉,备机hacmp没有正常接管。

3存储Vg资源释放不了,应该检查hacmp日志,检查具体造成无发接管的原因,而不是临时看所谓的设计方案。

4重启主节点,恢复业务后还是没有查明hacmp切换失败根本原因,也没说清架构上的设计缺陷,对hacmp的掌握程度可想而知。

互联网服务 · 2016-11-26
浏览3967
  • 多路径那些都是有的,hacmp的日志肯定是有检查的,hacmp切换失败根本原因就是光纤卡不释放。可能是我表述得不好,再者时间过去几年了,记得不太清了
    2016-11-27

回答者

chen78822
软件开发工程师同方公司
擅长领域: 存储服务器系统管理

chen78822 最近回答过的问题

回答状态

  • 发布时间:2016-11-26
  • 关注会员:14 人
  • 回答浏览:3967
  • X社区推广