有使用过Mapreduce,Hive,Spark等处理工具的,麻烦来分享分享使用经验?有哪些注意事项?有没有要注意的坑?
收起mapreduce是计算框架,分map端和reduce端,主要用于分布式计算,hive是可以用来冗余数据(本质还是将数据存储在文件系统),使用hive的时候需要设计好数据模型,使用hive的好处是可以使用sql,但是如果sql里面有聚合函数,框架会将sql转换为mapreduce执行,所以很慢,spark是一套基于内从计算的框架,现在一般都是用spark操作文件系统的数据,里面包含的东西太多了,你具体使用的时候根据需要使用对应的东西就行了,一般常用的rdd数据集,sparksql。