优点
分布式的特性:
-- 适合大数据处理: GB 、 TB 、甚至 PB 级及以上的数据
-- 百万规模以上的文件数量 :10K+ 节点。
-- 适合批处理:移动计算而非数据 (MR), 数据位置暴露给计算框架自身特性:
-- HA 高可用:可构建在廉价机器上:
-- 高可靠性 : 通过多副本提提高
-- 高容错性:数据自动保存多个副本;副本丢失后,自动恢复 , 提供了恢复机制
缺点
-- 低延迟高数据吞吐访问问题
• 比如不支持毫秒级
• 吞吐量大但有限制于其延迟
-- 小文件存取占用 NameNode 大量内存(寻道时间超过读取时间( 99% ))
-- 不支持文件修改:一个文件只能有一个写者(深入)仅支持 append 不支持修改(其实本身是支持的,主要为了空间换时间,节约成本)
收起