笔者接触的范围有限,在笔者知道的实际跑在生产环境上最大的超融合集群是80+台物理服务器。对于超融合的大集群运维,有以下几点需要考虑:一是亲和性和反亲和性的使用,这里包括机柜级和服务器级;二是有些超融合平台集群大了以后,能够进行故障域的划分,建议做好划分;三是集群规模大了以后,需要增强平台的巡检频率,在合同里写清楚巡检的要求;四是集群规模大,需要做好网络设备连接的规划,以便在出问题时快速排查;五是自动化运维工具的同步配置。
收起市面上有些超融合产品号称集群规模可以支持上千节点甚至无限大,但这些只是理论值,并不代表实际部署会做一个很大的集群,因为过大的集群会产生一些运维上的风险。
对于拥有上百个节点甚至上千节点的超融合用户,实际上单集群规模一般不会超过 64 个节点,甚至大多是在 40 个节点以内,能保证容错域的同时,也保证了集群内部所有节点都接入同一个存储网络交换机,尽可能减少网络延时。而对于数百个节点的管理,可以通过多集群管理功能,在统一的 UI 界面中进行运维和管理。
收起节点群集一般都是有限制的,如下
1、联想Nutanix +产品,理论上无限制,建议不超过128
2、EMC-vxRAIL和VMWARE VSAN,节点一般为64,现在可以支持到128
3、华为Fusioncube 256节点
4、smartX 节点数量255
5、大道运行1024节点(推荐最佳128)
节点数量增加意味着管理和维护难度的增加,而且一旦一个群集出问题,往往是整个群集崩掉,所有虚拟机都挂,影响非常大。
收起超融合架构的部署,实际使用中集群都不会太大,单个集群一般都是几十台节点的规模。
部分厂商甚至有严格的集群规模限制,规模大了故障率势必升高,一般按业务用途规划成不同的区域,以规避风险。