Hadoop集群小文件上传方案:新浪平台架构部高级经理杨海朝

目前我们的情况是:接口机上每小时接收约700个文件,一个文件大小为170M,每小时共计100G左右,集群BLOCK为256M问题1:如果我直接上传,对集群有多大影响?保持一个文件170M
问题2:我想直接合并到集群里面去,请问这一过程中哪种资源消耗最多?如何调整参数实现?
问题3:flume是否有这种功能?因为我目前对flume还没有使用过,所以有此问题?
问题4:如果能够得到您的建议,感激不尽!

谢谢
参与3

2同行回答

heraleignheraleign网站架构师iwhalecloud
谢谢收起
系统集成 · 2015-02-12
浏览707
杨博杨博课题专家组IT顾问某科技公司
回复 1# heraleign     1.从这个数据量看,直接上传问题不大。2.只要是如何能够比较快速的处理完这部分数据,完全传到集群中。不在于参数,而在于数据收集到上传完成整个流程优化。3.flume有这个功能。...显示全部
回复 1# heraleign


    1.从这个数据量看,直接上传问题不大。
2.只要是如何能够比较快速的处理完这部分数据,完全传到集群中。不在于参数,而在于数据收集到上传完成整个流程优化。
3.flume有这个功能。收起
互联网服务 · 2015-02-12
浏览722

提问者

heraleign
网站架构师iwhalecloud
擅长领域: 大数据大数据平台服务器

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-02-12
  • 关注会员:1 人
  • 问题浏览:4106
  • 最近回答:2015-02-12
  • X社区推广