有使用过Mapreduce,Hive,Spark等处理工具的,麻烦来分享分享使用经验?

有使用过Mapreduce,Hive,Spark等处理工具的,麻烦来分享分享使用经验?有哪些注意事项?有没有要注意的坑?

参与5

2同行回答

bigdata_userbigdata_user软件开发工程师博彦科技
mapreduce是计算框架,分map端和reduce端,主要用于分布式计算,hive是可以用来冗余数据(本质还是将数据存储在文件系统),使用hive的时候需要设计好数据模型,使用hive的好处是可以使用sql,但是如果sql里面有聚合函数,框架会将sql转换为mapreduce执行,所以很慢,spark是一套基于内从计算...显示全部

mapreduce是计算框架,分map端和reduce端,主要用于分布式计算,hive是可以用来冗余数据(本质还是将数据存储在文件系统),使用hive的时候需要设计好数据模型,使用hive的好处是可以使用sql,但是如果sql里面有聚合函数,框架会将sql转换为mapreduce执行,所以很慢,spark是一套基于内从计算的框架,现在一般都是用spark操作文件系统的数据,里面包含的东西太多了,你具体使用的时候根据需要使用对应的东西就行了,一般常用的rdd数据集,sparksql。

收起
互联网服务 · 2017-07-08
浏览2324
sjxiaoiter 邀答
美国队长美国队长研发工程师Alibaba
使用经验我理解成优化,三个框架的使用优化不同场景不同方法,比如数据倾斜,资源调度,比如你公司有好几个部门同时使用hadoop集群,你怎么控制他们之间的权限怎么分配他们各自的资源等,坑的话只能自己踩到才知道,别人只能说一些自己遇到的,但是我觉得无论什么坑如果知道一些常见的优...显示全部

使用经验我理解成优化,三个框架的使用优化不同场景不同方法,比如数据倾斜,资源调度,比如你公司有好几个部门同时使用hadoop集群,你怎么控制他们之间的权限怎么分配他们各自的资源等,坑的话只能自己踩到才知道,别人只能说一些自己遇到的,但是我觉得无论什么坑如果知道一些常见的优化场景就会避免掉入坑中

收起
互联网服务 · 2017-07-07
浏览2262
sjxiaoiter 邀答

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-07-07
  • 关注会员:3 人
  • 问题浏览:5093
  • 最近回答:2017-07-08
  • X社区推广