超融合架构实际部署案例中最大规模的单体集群有多大,有哪些运维风险点?

参与28

6同行回答

wykkxwykkx  系统架构师 , 某基金公司
笔者接触的范围有限,在笔者知道的实际跑在生产环境上最大的超融合集群是80+台物理服务器。对于超融合的大集群运维,有以下几点需要考虑:一是亲和性和反亲和性的使用,这里包括机柜级和服务器级;二是有些超融合平台集群大了以后,能够进行故障域的划分,建议做好划分;三是集群规模大...显示全部

笔者接触的范围有限,在笔者知道的实际跑在生产环境上最大的超融合集群是80+台物理服务器。对于超融合的大集群运维,有以下几点需要考虑:一是亲和性和反亲和性的使用,这里包括机柜级和服务器级;二是有些超融合平台集群大了以后,能够进行故障域的划分,建议做好划分;三是集群规模大了以后,需要增强平台的巡检频率,在合同里写清楚巡检的要求;四是集群规模大,需要做好网络设备连接的规划,以便在出问题时快速排查;五是自动化运维工具的同步配置。

收起
基金 · 2019-03-26
浏览4101
zn_zhongzn_zhong  产品经理 , SmartX超融合
市面上有些超融合产品号称集群规模可以支持上千节点甚至无限大,但这些只是理论值,并不代表实际部署会做一个很大的集群,因为过大的集群会产生一些运维上的风险。单个集群规模超大,容易导致容错域的问题。例如超融合一般使用的副本技术,3 副本情况下允许任意 2 块硬盘同时故障,...显示全部

市面上有些超融合产品号称集群规模可以支持上千节点甚至无限大,但这些只是理论值,并不代表实际部署会做一个很大的集群,因为过大的集群会产生一些运维上的风险。

  1. 单个集群规模超大,容易导致容错域的问题。例如超融合一般使用的副本技术,3 副本情况下允许任意 2 块硬盘同时故障,不会引发数据丢失风险;但是在一个上百甚至上千个节点的集群中,单一集群中硬盘的数量也很可能成千上万,这个数量级中出现超过 2 块硬盘同时故障的几率就大大提升了。
  2. 单个集群规模超大,实际上的部署也会带来麻烦。例如网络和机架相关的问题。例如一般机柜选择 TOR 接入(每个 42U 机柜顶部配置交换机),超大规模的集群必然导致服务器无法放在同一个机柜当中,甚至无法接入同一台交换机之中,这就有可能需要交换机的级联,除了增大交换网络的复杂度之外,也会增大集群节点间的存储网络延时。

对于拥有上百个节点甚至上千节点的超融合用户,实际上单集群规模一般不会超过 64 个节点,甚至大多是在 40 个节点以内,能保证容错域的同时,也保证了集群内部所有节点都接入同一个存储网络交换机,尽可能减少网络延时。而对于数百个节点的管理,可以通过多集群管理功能,在统一的 UI 界面中进行运维和管理。

收起
软件开发 · 2019-06-05
浏览3431
red_wolfred_wolf  项目经理 , 快威
超融合目前还是小范围应用较多,对运维人员的要求较高。显示全部

超融合目前还是小范围应用较多,对运维人员的要求较高。

收起
系统集成 · 2019-03-29
浏览3474
s6dongs6dong  it技术咨询顾问 , 东软集团
节点群集一般都是有限制的,如下1、联想Nutanix +产品,理论上无限制,建议不超过1282、EMC-vxRAIL和VMWARE VSAN,节点一般为64,现在可以支持到1283、华为Fusioncube 256节点4、smartX 节点数量2555、大道运行1024节点(推荐最佳128)节点数量增加意味着管理和维护难度的增加,而且一旦...显示全部

节点群集一般都是有限制的,如下
1、联想Nutanix +产品,理论上无限制,建议不超过128
2、EMC-vxRAIL和VMWARE VSAN,节点一般为64,现在可以支持到128
3、华为Fusioncube 256节点
4、smartX 节点数量255
5、大道运行1024节点(推荐最佳128)

节点数量增加意味着管理和维护难度的增加,而且一旦一个群集出问题,往往是整个群集崩掉,所有虚拟机都挂,影响非常大。

收起
互联网服务 · 2019-03-28
浏览3531
  • 但是有一点我认为不是支持的节点数量越多就能说明越好的,相反我认为如果支持的节点数量少并且性能强才是关键。
    2019-03-30
blue_diamondblue_diamond  系统架构师 , 制造业
超融合架构的部署,实际使用中集群都不会太大,单个集群一般都是几十台节点的规模。部分厂商甚至有严格的集群规模限制,规模大了故障率势必升高,一般按业务用途规划成不同的区域,以规避风险。...显示全部

超融合架构的部署,实际使用中集群都不会太大,单个集群一般都是几十台节点的规模。
部分厂商甚至有严格的集群规模限制,规模大了故障率势必升高,一般按业务用途规划成不同的区域,以规避风险。

收起
机械装备 · 2019-03-26
浏览3561
QiangzQiangz  存储架构师 , LN专业存储
小规模用于开发测试居多显示全部

小规模用于开发测试居多

收起
IT咨询服务 · 2019-03-26
浏览3573

提问者

大白菜丶008
系统架构师亚太财产保险有限公司
擅长领域: 监控系统运维自动化运维

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2019-03-26
  • 关注会员:7 人
  • 问题浏览:7052
  • 最近回答:2019-06-05
  • X社区推广