互联网服务系统运维Hadoop

HADOOP比JOB更消耗资源,怎样的建构使物理资源得到充分的发挥?

用户的话单大小为100KB左右每天大约有上亿条待处理,使用HADOOP处理明显要比1G左右的JOB更消耗资源,怎样的建构使物理资源得到充分的发挥,又有效的做到数据的稽核比对?

参与10

3同行回答

尘世随缘尘世随缘技术总监上海某互联网金融公司
你这个是明显的小问题导致的大作业,hadoop默认是使用一个块(128M)为一个作业。你可以这样计算1G大文件hadoop会拆分为8个JOB,如果你是1G的小文件每个文件100K的话,你可以计算下需要多个Job,这么多的Job从申请资源到执行都需很长的过程,所以这个就比较慢了。解决这种小文件的方式...显示全部
你这个是明显的小问题导致的大作业,hadoop默认是使用一个块(128M)为一个作业。你可以这样计算1G大文件hadoop会拆分为8个JOB,如果你是1G的小文件每个文件100K的话,你可以计算下需要多个Job,这么多的Job从申请资源到执行都需很长的过程,所以这个就比较慢了。

解决这种小文件的方式比较多

1、通过Linux的SHELL脚本把小文件合并为大文件

2、使用sequenceFile格式,来合并小文件

3、使用CombineFileInputFormat来处理小文件,多个文件当做一个Job来处理。

收起
互联网服务 · 2015-11-06
浏览2124
loveryueloveryue软件开发工程师IBM
Job的优化一直是分布式计算的核心,最关键是要知道哪些job执行时间长,影响整个计算模型的结果,然后 通过调整split大小,改变中间文件类型等手段加速。显示全部

Job的优化一直是分布式计算的核心,最关键是要知道哪些job执行时间长,影响整个计算模型的结果,然后 通过调整split大小,改变中间文件类型等手段加速。

收起
互联网服务 · 2015-11-06
浏览2108

提问者

jy00810061
系统运维工程师chinaunicom
擅长领域: 服务器系统管理

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-11-06
  • 关注会员:4 人
  • 问题浏览:6564
  • 最近回答:2015-11-06
  • X社区推广