HADOOP比JOB更消耗资源，怎样的建构使物理资源得到充分的发挥?

用户的话单大小为100KB左右每天大约有上亿条待处理,使用HADOOP处理明显要比1G左右的JOB更消耗资源,怎样的建构使物理资源得到充分的发挥,又有效的做到数据的稽核比对?

参与10

3同行回答
互联网服务
全部行业 互联网服务 电信运营商
|
按赞同排序
按时间排序

尘世随缘技术总监上海某互联网金融公司

你这个是明显的小问题导致的大作业，hadoop默认是使用一个块（128M）为一个作业。你可以这样计算1G大文件hadoop会拆分为8个JOB，如果你是1G的小文件每个文件100K的话，你可以计算下需要多个Job，这么多的Job从申请资源到执行都需很长的过程，所以这个就比较慢了。

解决这种小文件的方式比较多

1、通过Linux的SHELL脚本把小文件合并为大文件

2、使用sequenceFile格式，来合并小文件

3、使用CombineFileInputFormat来处理小文件，多个文件当做一个Job来处理。

互联网服务 · 2015-11-06

loveryue软件开发工程师IBM

Job的优化一直是分布式计算的核心，最关键是要知道哪些job执行时间长，影响整个计算模型的结果，然后通过调整split大小，改变中间文件类型等手段加速。

互联网服务 · 2015-11-06