HADOOP比JOB更消耗资源，怎样的建构使物理资源得到充分的发挥?

用户的话单大小为100KB左右每天大约有上亿条待处理,使用HADOOP处理明显要比1G左右的JOB更消耗资源,怎样的建构使物理资源得到充分的发挥,又有效的做到数据的稽核比对?

参与10

3同行回答
全部行业
全部行业 互联网服务 电信运营商
|
按赞同排序
按时间排序

尘世随缘技术总监上海某互联网金融公司

你这个是明显的小问题导致的大作业，hadoop默认是使用一个块（128M）为一个作业。你可以这样计算1G大文件hadoop会拆分为8个JOB，如果你是1G的小文件每个文件100K的话，你可以计算下需要多个Job，这么多的Job从申请资源到执行都需很长的过程，所以这个就比较慢了。

解决这种小文件的方式比较多

1、通过Linux的SHELL脚本把小文件合并为大文件

2、使用sequenceFile格式，来合并小文件

3、使用CombineFileInputFormat来处理小文件，多个文件当做一个Job来处理。

互联网服务 · 2015-11-06

loveryue软件开发工程师IBM

Job的优化一直是分布式计算的核心，最关键是要知道哪些job执行时间长，影响整个计算模型的结果，然后通过调整split大小，改变中间文件类型等手段加速。

互联网服务 · 2015-11-06

zv8912000系统架构师电信行业

个人HADOOP作为开源项目持续的发展中国，目前来说基本完成了hive到spark升级，job任务还是选择spark还是选择其他组件，会随着时间发展不断变化。 spark大致为hive15倍以上，有SQL还是NOSQL，不一定发展成什么样。

电信运营商 · 2015-11-06