保险Hadoop 数据集大量小文件

为什么Hadoop适用于大型数据集的应用程序，而不是具有大量的小文件的应用程序？

参与5

2同行回答
全部行业
全部行业 互联网服务 银行
|
按赞同排序
按时间排序

呱呱爱吃瓜数据仓库工程师银行

相较于在多个分布数据量小的文件， HDFS 更适合在一个文件中具有大量的数据集。这是因为“ Namenode ”是非常昂贵的，高性能的系统中，它是不慎重的占据“ Namenode ”通过了为多个小文件生成的元数据的不必要量的空间。因此，当在一个单独文件中的大量的数据，“ Namenode ”将占据更少的空间。因此，为获得最佳的性能， HDFS 支持大数据集，而不是多个小文件 **

银行 · 2020-03-05

浏览1936

Luga Lee系统架构师None

关键点还在于“NameNode”。目录/文件和Block均会占用NameNode内存空间，大量小文件会降低内存使用效率，除此，小文件的读写性能远远低于大文件的读写，主要原因对小文件读写需要在多个数据源切换，严重影响性能。

互联网服务 · 2020-03-05

浏览2100

提问者

数据库架构师某保险

擅长领域：数据库，关系型数据库，数据库系统改造

评论44

相关问题

系统迁移，国产化转信创如何实施？

医疗大数据平台不同的建设路线底层基础架构设计时有什么要求？

大模型和数据集的关系是什么？

如何创建私有化LLM的数据集？

Hadoop生态圈子项目有哪些？

相关资料

《深度剖析Hadoop HDFS》-第一部分

基于ZooKeeper搭建Hadoop高可用集群

阿里Hadoop集群架构及服务体系

Hadoop-100道面试题及答案解析

《深度剖析Hadoop HDFS》-第二部分

相关文章

中小银行大数据平台建设实践分享

Hadoop集群3台服务器系统异常重分析

问题状态

发布时间：2020-03-05

关注会员：3 人

问题浏览：3856

最近回答：2020-03-05

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广