[案例分享]PowerVC部署虚拟机失败问题

故障描述:生产两套PowerVC,一套PowerVC为灾备数据中心用,一套PowerVC为生产数据中心用,有一个系统上线需要部署大量虚拟机,分别部署于两个数据中心,结果生产PowerVC部署不成功,灾备PowerVC也部署不成功,检查了所有需要部署的计算节点资源池状况,都正常,检查了部署的计算节点VIOS的...显示全部

故障描述:生产两套PowerVC,一套PowerVC为灾备数据中心用,一套PowerVC为生产数据中心用,有一个系统上线需要部署大量虚拟机,分别部署于两个数据中心,结果生产PowerVC部署不成功,灾备PowerVC也部署不成功,检查了所有需要部署的计算节点资源池状况,都正常,检查了部署的计算节点VIOS的RMC服务,测试了RMC连接,均正常,重启了两套PowerVC,并把计算节点从PowerVC中删除,把计算节点从HMC中删除,再重新添加进HMC和POWERVC,还是不行。项目上线催得急,怎么办?做了两手打算,一是重新新搭一套PowerVC,再试试,二是继续折腾。

故障解决:继续折腾时,发现一个奇怪的现象,从生产PowerVC这套中删除一个不需要的虚拟机时,可以继续部署一个虚拟机,再部署就失败,那就说明PowerVC软件及相关联的组件都没有问题,肯定是哪里满了,哪里参数达到阀值了。继续排查问题,先检查计算节点的vadapter的数量有没有设定上限,都正常,再跟踪部署过程,发现部署失败时,不是立即失败,部署时仔细观察HMC上是否已自动创建分区,SVC上是否已创建IMAGE快照,SAN交换机是否创建了ZONE。结果:HMC已创建分区,SAN上已创建ZONE,SVC上也开始创建了快照,但是隔了大约20秒,HMC上分区被删除,SAN上的ZONE被清理,POWERVC上这才显示failed状态,问题可能出现在SVC上,仔细观察SVC卷的创建和快照的创建,发现快照创建了但是没有开始拷贝,然后立即删除快照,问题可能出在这里,无意中点开创建的卷的属性,发现卷所属的SVC IOGroup是1,而PowerVC上storage pool指向的是SVC IOGOUP0,立即检查了SVC,发现SVC在6.4版本时,IOGROUP的host有上限256!!,而目前SVC IOGROUP HOST已达上限值,问题找到了,立即在SVC上新划了池,关联至POWERVC中,POWERVC指定划IOGROUP 1的卷,配置完成后,虚拟机部署一切正常了。

灾备PowerVC也用同样的方法,找到问题的源头是SVC中池的使用容量已达100%,扩大池容量后,问题也解决。

总结:PowerVC无非是利用脚本,像人工一样部署虚拟机,当问题出现时,冷静下来,看看到底是PowerVC软件出现问题了,还是相关联的组件出问题了,如果部署快速失败,说明PowerVC软件有问题,或者与HMC的通信有问题;如果部署没有立即失败,二是隔了一段时间失败,那就要查HMC、SVC或者SAN交换机了,学会人工搭建一整套环境后,PowerVC的那些小伎俩还是可以从现象判断得清楚的。

收起
参与11

查看其它 1 个回答asdf-asdf的回答

asdf-asdfasdf-asdf研究学者cloudstone

vc 没有报告这个错误出来吗?  exception应该上抛呀!

软件开发 · 2017-01-05
浏览1737

回答者

asdf-asdf
研究学者cloudstone
擅长领域: 云计算服务器系统运维

asdf-asdf 最近回答过的问题

回答状态

  • 发布时间:2017-01-05
  • 关注会员:8 人
  • 回答浏览:1737
  • X社区推广