抛砖引玉-集停机,升级,变更,意外于一身的案例

一个普通的变更,离奇的决定,崩溃的结果用户存储根据厂商反馈需要升级微码,此次维护操作可以在线操作。向用户报告此次升级在线操作,对前端业务没有影响,但是用户内部经过讨论认为停机更为稳妥,毕竟存储端做操作怕影响数据。那就按照计划停机操作,停业务,数据库,RAC/HA/OS等。等存...显示全部

一个普通的变更,离奇的决定,崩溃的结果
用户存储根据厂商反馈需要升级微码,此次维护操作可以在线操作。向用户报告此次升级在线操作,对前端业务没有影响,但是用户内部经过讨论认为停机更为稳妥,毕竟存储端做操作怕影响数据。那就按照计划停机操作,停业务,数据库,RAC/HA/OS等。等存储端变更完毕,启动OS/HA/RAC/数据库。意外发生了,HA起不来了。崩溃死了,查原因吧,一查发现共享存储磁盘属性上reserve_policy变了。变成了默认值了。
关了下系统,这个值咋还变了呢,在检查了其他属性,发现都变了,我的天啊,升级微码会影响到这个吗?存储工程师也傻眼了,百年不遇啊,冤枉啊。当时也顾不了查找原因了,既然变了,改回来先启动业务再说吧,等业务起来后,先抓取AIX日志再说,发给IBM,看看厂商咋分析吧,这次IBM效率还挺快,2天就给了回复,非常抱歉的跟我们说,遇到了bug。

收起
参与13

查看其它 3 个回答hn_linux的回答

hn_linuxhn_linux系统运维工程师IT

见过AIX最初版本一堆Bug,建议每个AIX大版本发行后,等一年以后出修正版本再用。

系统集成 · 2017-06-06
浏览4262

回答者

hn_linux
系统运维工程师IT

hn_linux 最近回答过的问题

回答状态

  • 发布时间:2017-06-06
  • 关注会员:5 人
  • 回答浏览:4262
  • X社区推广