有使用过Mapreduce，Hive，Spark等处理工具的，麻烦来分享分享使用经验？

有使用过Mapreduce，Hive，Spark等处理工具的，麻烦来分享分享使用经验？有哪些注意事项？有没有要注意的坑？

参与5

2同行回答
全部行业
全部行业 互联网服务
|
按赞同排序
按时间排序

bigdata_user软件开发工程师博彦科技

mapreduce是计算框架，分map端和reduce端，主要用于分布式计算，hive是可以用来冗余数据（本质还是将数据存储在文件系统），使用hive的时候需要设计好数据模型，使用hive的好处是可以使用sql，但是如果sql里面有聚合函数，框架会将sql转换为mapreduce执行，所以很慢，spark是一套基于内从计算的框架，现在一般都是用spark操作文件系统的数据，里面包含的东西太多了，你具体使用的时候根据需要使用对应的东西就行了，一般常用的rdd数据集，sparksql。

收起

互联网服务 · 2017-07-08

sjxiaoiter 邀答

美国队长研发工程师Alibaba

使用经验我理解成优化，三个框架的使用优化不同场景不同方法，比如数据倾斜，资源调度，比如你公司有好几个部门同时使用hadoop集群，你怎么控制他们之间的权限怎么分配他们各自的资源等，坑的话只能自己踩到才知道，别人只能说一些自己遇到的，但是我觉得无论什么坑如果知道一些常见的优化场景就会避免掉入坑中

收起

互联网服务 · 2017-07-07

sjxiaoiter 邀答

有使用过Mapreduce，Hive，Spark等处理工具的，麻烦来分享分享使用经验？

2同行回答
全部行业
全部行业 互联网服务
|
按赞同排序
按时间排序

问题来自

相关问题

相关资料

相关文章

问题状态

有使用过Mapreduce，Hive，Spark等处理工具的，麻烦来分享分享使用经验？

2同行回答全部行业全部行业互联网服务|按赞同排序按时间排序

问题来自

相关问题

相关资料

相关文章

问题状态

2同行回答
全部行业
全部行业互联网服务
|
按赞同排序
按时间排序