有使用过Mapreduce,Hive,Spark等处理工具的,麻烦来分享分享使用经验?有哪些注意事项?有没有要注意的坑?
mapreduce是计算框架,分map端和reduce端,主要用于分布式计算,hive是可以用来冗余数据(本质还是将数据存储在文件系统),使用hive的时候需要设计好数据模型,使用hive的好处是可以使用sql,但是如果sql里面有聚合函数,框架会将sql转换为mapreduce执行,所以很慢,spark是一套基于内从计算的框架,现在一般都是用spark操作文件系统的数据,里面包含的东西太多了,你具体使用的时候根据需要使用对应的东西就行了,一般常用的rdd数据集,sparksql。
收起使用经验我理解成优化,三个框架的使用优化不同场景不同方法,比如数据倾斜,资源调度,比如你公司有好几个部门同时使用hadoop集群,你怎么控制他们之间的权限怎么分配他们各自的资源等,坑的话只能自己踩到才知道,别人只能说一些自己遇到的,但是我觉得无论什么坑如果知道一些常见的优化场景就会避免掉入坑中
收起