不建议做特别大的集群(比如200节点以上),不管是单纯的存储,还是海量的并行计算,随着数据量增大,集群的管理(重启后的数据上线,扩容),系统的健壮稳定都不是很好,特别在开源架构下,很多不可控不可查的问题接连出现,另外集群规模过大,必然导致集群中断情况下业务的影响范围。
另外做开源没有人是不行的,维护量很大,小集群还可以自己摸索,大集群还是找实力相当的厂家背书,这样大家都睡得好。
对于ceph从理论上来讲,可以进行无限制的扩容。但是,从实际使用的场景来看,必须要进行集群规模的限制,以应对一些问题。
1)对于不同的使用场景,块/对象/文件,不同的存储类型,建议进行物理上的隔离,不建议混用底层的存储
2)建立故障域,隔离风险,降低系统不可用的风险。
3)如果可能的话,可以考虑在硬件层面,融合不同的vendor,例如服务器/交换机可以选择不同品牌,来保证集群不被某一品牌绑架。
理论上是没有上限的,为了整体性能和更好的维护性,会把集群规模控制在一定水平。目前在我们IPS&XSKY联合分布式存储方案中,最大支持存储节点扩展到4096个,按照单机40盘位480TB的数据规模来测算,可以实现1.8EB裸容量规模的数据管理能力,足以支撑海量数据存储的业务需求和场景。
收起