有使用过Mapreduce,Hive,Spark等处理工具的,麻烦来分享分享使用经验?

有使用过Mapreduce,Hive,Spark等处理工具的,麻烦来分享分享使用经验?有哪些注意事项?有没有要注意的坑?显示全部

有使用过Mapreduce,Hive,Spark等处理工具的,麻烦来分享分享使用经验?有哪些注意事项?有没有要注意的坑?

收起
参与5

查看其它 1 个回答bigdata_user的回答

bigdata_userbigdata_user软件开发工程师博彦科技

mapreduce是计算框架,分map端和reduce端,主要用于分布式计算,hive是可以用来冗余数据(本质还是将数据存储在文件系统),使用hive的时候需要设计好数据模型,使用hive的好处是可以使用sql,但是如果sql里面有聚合函数,框架会将sql转换为mapreduce执行,所以很慢,spark是一套基于内从计算的框架,现在一般都是用spark操作文件系统的数据,里面包含的东西太多了,你具体使用的时候根据需要使用对应的东西就行了,一般常用的rdd数据集,sparksql。

互联网服务 · 2017-07-08
浏览2319
sjxiaoiter 邀答

回答者

bigdata_user
软件开发工程师博彦科技
擅长领域: 数据库大数据大数据平台

bigdata_user 最近回答过的问题

回答状态

  • 发布时间:2017-07-08
  • 关注会员:3 人
  • 回答浏览:2319
  • X社区推广