怎样用Hadoop进行高效的处理小文件?以及怎样让各个节点尽可能的负载均衡?

大的文件拆分成很多小的文件后,怎样用Hadoop进行高效的处理这些小文件?以及怎样让各个节点尽可能的负载均衡?显示全部

大的文件拆分成很多小的文件后,怎样用Hadoop进行高效的处理这些小文件?以及怎样让各个节点尽可能的负载均衡?

收起
参与8

查看其它 1 个回答youki2008的回答

youki2008youki2008系统架构师DDT

hadoop 在处理大规模数据时是很高效的,处理小文件时,可以将小文件打包为大文件,例如使用 SequcenFile 文件格式,这样多个小文件就可以通过 SequcenFile 文件格式变为一个大文件,之前的每个小文件都会映射为 SequcenFile 文件的一条记录。

互联网服务 · 2020-04-25
浏览1296

回答者

youki2008
系统架构师DDT
擅长领域: 服务器云计算数据库

youki2008 最近回答过的问题

回答状态

  • 发布时间:2020-04-25
  • 关注会员:3 人
  • 回答浏览:1296
  • X社区推广