为什么Hadoop适用于大型数据集的应用程序,而不是具有大量的小文件的应用程序?

参与5

2同行回答

呱呱爱吃瓜呱呱爱吃瓜数据仓库工程师银行
相较于在多个分布数据量小的文件 , HDFS 更适合在一个文件中具有大量的数据集。这是因为“ Namenode ”是非常昂贵的,高性能的系统中,它是不慎重的占据“ Namenode ”通过了为多个小文件生成的元数据的不必要量的空间。因此,当在一个单独文件中的大量的数据,“ Namenode ”将...显示全部

相较于在多个分布数据量小的文件 , HDFS 更适合在一个文件中具有大量的数据集。这是因为“ Namenode ”是非常昂贵的,高性能的系统中,它是不慎重的占据“ Namenode ”通过了为多个小文件生成的元数据的不必要量的空间。因此,当在一个单独文件中的大量的数据,“ Namenode ”将占据更少的空间。因此,为获得最佳的性能, HDFS 支持大数据集,而不是多个小文件 **

收起
银行 · 2020-03-05
浏览1936
Luga LeeLuga Lee系统架构师None
关键点还在于“NameNode”。 目录/文件和Block均会占用NameNode内存空间,大量小文件会降低内存使用效率,除此,小文件的读写性能远远低于大文件的读写,主要原因对小文件读写需要在多个数据源切换,严重影响性能。...显示全部

关键点还在于“NameNode”。 目录/文件和Block均会占用NameNode内存空间,大量小文件会降低内存使用效率,除此,小文件的读写性能远远低于大文件的读写,主要原因对小文件读写需要在多个数据源切换,严重影响性能。

收起
互联网服务 · 2020-03-05
浏览2100

提问者

Tamic
数据库架构师某保险

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-03-05
  • 关注会员:3 人
  • 问题浏览:3856
  • 最近回答:2020-03-05
  • X社区推广