目前,公司里用分布式存储使用hdfs和ceph的较多,对于大型的IDC机房,到底是使用hdfs好,还是使用ceph好?
(1)Ceph是去中心化的分布式存储,确实有无限扩容的能力,但需要良好的初始规划,扩容过程也并不完美。
(2)hdfs是中心化的分布式存储,只要master节点的能力够,理论上扩展节点是没有上线的。
对于大型IDC机房, 经常会进行扩容,而坏磁盘是司空见惯的现象,一旦坏磁盘,ceph就暴露出问题了,对于1000台规模的集群一天坏个2-3块盘很正常。crushmap经常变动,对Ceph内部不稳定,影响真的很大。随之而来,可能是整体IO的下降(磁盘IO被反复的rebalance占满),甚至是某些数据暂时不可用。
所以,如果规模较大的集群,还是hdfs更为稳妥。