互联网服务系统运维Hadoop

HADOOP比JOB更消耗资源,怎样的建构使物理资源得到充分的发挥?

用户的话单大小为100KB左右每天大约有上亿条待处理,使用HADOOP处理明显要比1G左右的JOB更消耗资源,怎样的建构使物理资源得到充分的发挥,又有效的做到数据的稽核比对?

参与10

3同行回答

尘世随缘尘世随缘技术总监上海某互联网金融公司
你这个是明显的小问题导致的大作业,hadoop默认是使用一个块(128M)为一个作业。你可以这样计算1G大文件hadoop会拆分为8个JOB,如果你是1G的小文件每个文件100K的话,你可以计算下需要多个Job,这么多的Job从申请资源到执行都需很长的过程,所以这个就比较慢了。解决这种小文件的方式...显示全部
你这个是明显的小问题导致的大作业,hadoop默认是使用一个块(128M)为一个作业。你可以这样计算1G大文件hadoop会拆分为8个JOB,如果你是1G的小文件每个文件100K的话,你可以计算下需要多个Job,这么多的Job从申请资源到执行都需很长的过程,所以这个就比较慢了。

解决这种小文件的方式比较多

1、通过Linux的SHELL脚本把小文件合并为大文件

2、使用sequenceFile格式,来合并小文件

3、使用CombineFileInputFormat来处理小文件,多个文件当做一个Job来处理。

收起
互联网服务 · 2015-11-06
浏览2115
loveryueloveryue软件开发工程师IBM
Job的优化一直是分布式计算的核心,最关键是要知道哪些job执行时间长,影响整个计算模型的结果,然后 通过调整split大小,改变中间文件类型等手段加速。显示全部

Job的优化一直是分布式计算的核心,最关键是要知道哪些job执行时间长,影响整个计算模型的结果,然后 通过调整split大小,改变中间文件类型等手段加速。

收起
互联网服务 · 2015-11-06
浏览2098
zv8912000zv8912000系统架构师电信行业
个人HADOOP作为开源项目持续的发展中国,目前来说基本完成了hive到spark升级,job任务还是选择spark还是选择其他组件,会随着时间发展不断变化。 spark大致为hive15倍以上,有SQL还是NOSQL,不一定发展成什么样。...显示全部

个人HADOOP作为开源项目持续的发展中国,目前来说基本完成了hive到spark升级,job任务还是选择spark还是选择其他组件,会随着时间发展不断变化。 spark大致为hive15倍以上,有SQL还是NOSQL,不一定发展成什么样。

收起
电信运营商 · 2015-11-06
浏览1968

提问者

jy00810061
系统运维工程师chinaunicom
擅长领域: 服务器系统管理

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-11-06
  • 关注会员:4 人
  • 问题浏览:6550
  • 最近回答:2015-11-06
  • X社区推广