抛砖引玉-集停机,升级,变更,意外于一身的案例

一个普通的变更,离奇的决定,崩溃的结果
用户存储根据厂商反馈需要升级微码,此次维护操作可以在线操作。向用户报告此次升级在线操作,对前端业务没有影响,但是用户内部经过讨论认为停机更为稳妥,毕竟存储端做操作怕影响数据。那就按照计划停机操作,停业务,数据库,RAC/HA/OS等。等存储端变更完毕,启动OS/HA/RAC/数据库。意外发生了,HA起不来了。崩溃死了,查原因吧,一查发现共享存储磁盘属性上reserve_policy变了。变成了默认值了。
关了下系统,这个值咋还变了呢,在检查了其他属性,发现都变了,我的天啊,升级微码会影响到这个吗?存储工程师也傻眼了,百年不遇啊,冤枉啊。当时也顾不了查找原因了,既然变了,改回来先启动业务再说吧,等业务起来后,先抓取AIX日志再说,发给IBM,看看厂商咋分析吧,这次IBM效率还挺快,2天就给了回复,非常抱歉的跟我们说,遇到了bug。

参与13

提问者

myciciy
myciciy21035
IT顾问某金融科技公司
擅长领域: 服务器存储灾备

问题来自

相关问题

相关资料

问题状态

  • 发布时间:2017-06-06
  • 关注会员:5 人
  • 问题浏览:10029
  • 最近回答:2017-06-15
  • X社区推广