[案例分享]PowerVC部署虚拟机失败问题

故障描述:生产两套PowerVC,一套PowerVC为灾备数据中心用,一套PowerVC为生产数据中心用,有一个系统上线需要部署大量虚拟机,分别部署于两个数据中心,结果生产PowerVC部署不成功,灾备PowerVC也部署不成功,检查了所有需要部署的计算节点资源池状况,都正常,检查了部署的计算节点VIOS的RMC服务,测试了RMC连接,均正常,重启了两套PowerVC,并把计算节点从PowerVC中删除,把计算节点从HMC中删除,再重新添加进HMC和POWERVC,还是不行。项目上线催得急,怎么办?做了两手打算,一是重新新搭一套PowerVC,再试试,二是继续折腾。

故障解决:继续折腾时,发现一个奇怪的现象,从生产PowerVC这套中删除一个不需要的虚拟机时,可以继续部署一个虚拟机,再部署就失败,那就说明PowerVC软件及相关联的组件都没有问题,肯定是哪里满了,哪里参数达到阀值了。继续排查问题,先检查计算节点的vadapter的数量有没有设定上限,都正常,再跟踪部署过程,发现部署失败时,不是立即失败,部署时仔细观察HMC上是否已自动创建分区,SVC上是否已创建IMAGE快照,SAN交换机是否创建了ZONE。结果:HMC已创建分区,SAN上已创建ZONE,SVC上也开始创建了快照,但是隔了大约20秒,HMC上分区被删除,SAN上的ZONE被清理,POWERVC上这才显示failed状态,问题可能出现在SVC上,仔细观察SVC卷的创建和快照的创建,发现快照创建了但是没有开始拷贝,然后立即删除快照,问题可能出在这里,无意中点开创建的卷的属性,发现卷所属的SVC IOGroup是1,而PowerVC上storage pool指向的是SVC IOGOUP0,立即检查了SVC,发现SVC在6.4版本时,IOGROUP的host有上限256!!,而目前SVC IOGROUP HOST已达上限值,问题找到了,立即在SVC上新划了池,关联至POWERVC中,POWERVC指定划IOGROUP 1的卷,配置完成后,虚拟机部署一切正常了。

灾备PowerVC也用同样的方法,找到问题的源头是SVC中池的使用容量已达100%,扩大池容量后,问题也解决。

总结:PowerVC无非是利用脚本,像人工一样部署虚拟机,当问题出现时,冷静下来,看看到底是PowerVC软件出现问题了,还是相关联的组件出问题了,如果部署快速失败,说明PowerVC软件有问题,或者与HMC的通信有问题;如果部署没有立即失败,二是隔了一段时间失败,那就要查HMC、SVC或者SAN交换机了,学会人工搭建一整套环境后,PowerVC的那些小伎俩还是可以从现象判断得清楚的。

参与11

2同行回答

cuizengshuncuizengshun系统运维工程师民生银行
不错的案例,赞!显示全部

不错的案例,赞!

收起
银行 · 2017-01-06
浏览1587
asdf-asdfasdf-asdf研究学者cloudstone
vc 没有报告这个错误出来吗?  exception应该上抛呀!显示全部

vc 没有报告这个错误出来吗?  exception应该上抛呀!

收起
软件开发 · 2017-01-05
浏览1734

提问者

jxnxsdengyu
系统工程师江西农信
擅长领域: 存储灾备双活

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-01-05
  • 关注会员:8 人
  • 问题浏览:4656
  • 最近回答:2017-01-06
  • X社区推广