互联网服务系统运维Hadoop

HADOOP比JOB更消耗资源,怎样的建构使物理资源得到充分的发挥?

用户的话单大小为100KB左右每天大约有上亿条待处理,使用HADOOP处理明显要比1G左右的JOB更消耗资源,怎样的建构使物理资源得到充分的发挥,又有效的做到数据的稽核比对?显示全部

用户的话单大小为100KB左右每天大约有上亿条待处理,使用HADOOP处理明显要比1G左右的JOB更消耗资源,怎样的建构使物理资源得到充分的发挥,又有效的做到数据的稽核比对?

收起
参与10

查看其它 2 个回答尘世随缘的回答

尘世随缘尘世随缘技术总监上海某互联网金融公司
你这个是明显的小问题导致的大作业,hadoop默认是使用一个块(128M)为一个作业。你可以这样计算1G大文件hadoop会拆分为8个JOB,如果你是1G的小文件每个文件100K的话,你可以计算下需要多个Job,这么多的Job从申请资源到执行都需很长的过程,所以这个就比较慢了。

解决这种小文件的方式比较多

1、通过Linux的SHELL脚本把小文件合并为大文件

2、使用sequenceFile格式,来合并小文件

3、使用CombineFileInputFormat来处理小文件,多个文件当做一个Job来处理。

互联网服务 · 2015-11-06
浏览2122

回答者

尘世随缘
技术总监上海某互联网金融公司
擅长领域: 云计算云原生微服务

尘世随缘 最近回答过的问题

回答状态

  • 发布时间:2015-11-06
  • 关注会员:4 人
  • 回答浏览:2122
  • X社区推广