传统ETL ,Mapreduce,Hive,Spark等处理数据文件的应用场景都有哪些?

传统ETL ,Mapreduce,Hive,Spark等处理数据文件的应用场景都有哪些?

参与12

2同行回答

美国队长美国队长研发工程师Alibaba
传统的ETL在数据量不大比如<20G的数据文件处理,他的优势在于他是可视化的步骤比较简单,上手比较快Mapreduce对于数据量比较大的,处理数据业务逻辑变化不是很大,因为每次用java或者python等都得反复调试,比如淘宝底层日志解析,日志的格式基本都不会有太大的变化,写一次Mapredu...显示全部

传统的ETL在数据量不大比如<20G的数据文件处理,他的优势在于他是可视化的步骤比较简单,上手比较快
Mapreduce对于数据量比较大的,处理数据业务逻辑变化不是很大,因为每次用java或者python等都得反复调试,比如淘宝底层日志解析,日志的格式基本都不会有太大的变化,写一次Mapreduce就稳定跑了

Hive采用类sql的方式,门槛比较低,只要会写sql就可以了,缺点是需要优化的话,你得对hive底层运行原理了解一些,优化的门槛比较高

Spark 基于内存计算是sql,虽说是sql但是还要写代码,所以没有hive方便,但是速度某些场景会比hive快,调优方面也是需要对spark底层运行原理有所了解

收起
互联网服务 · 2017-07-04
浏览3982
rainforcrainforc研发工程师欢聚时代 alibaba
楼上说的比较清楚了,我再补充一些,hive其底层也是转化为mapreduce运行,对于使用者而言用sql代替写mapreduce,方便很多,但是同时也会失去一些灵活性,而spark主要基于内存运算,如果机器内存足够,使用spark能够更加快捷,应用场景比如比如实时推荐、聚类分析等等。...显示全部

楼上说的比较清楚了,我再补充一些,hive其底层也是转化为mapreduce运行,对于使用者而言用sql代替写mapreduce,方便很多,但是同时也会失去一些灵活性,而spark主要基于内存运算,如果机器内存足够,使用spark能够更加快捷,应用场景比如比如实时推荐、聚类分析等等。

收起
互联网服务 · 2017-07-07
浏览3675

提问者

冯连进
技术经理picc
擅长领域: 大数据大数据平台数据库

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2017-07-03
  • 关注会员:5 人
  • 问题浏览:6988
  • 最近回答:2017-07-07
  • X社区推广