保险etl spark 应用场景 mapreduce hive

传统ETL ，Mapreduce，Hive，Spark等处理数据文件的应用场景都有哪些？

传统ETL ，Mapreduce，Hive，Spark等处理数据文件的应用场景都有哪些？

参与12

2同行回答
全部行业
全部行业 互联网服务
|
按赞同排序
按时间排序

美国队长研发工程师Alibaba

传统的ETL在数据量不大比如<20G的数据文件处理，他的优势在于他是可视化的步骤比较简单，上手比较快
Mapreduce对于数据量比较大的，处理数据业务逻辑变化不是很大，因为每次用java或者python等都得反复调试，比如淘宝底层日志解析，日志的格式基本都不会有太大的变化，写一次Mapreduce就稳定跑了

Hive采用类sql的方式，门槛比较低，只要会写sql就可以了，缺点是需要优化的话，你得对hive底层运行原理了解一些，优化的门槛比较高

Spark 基于内存计算是sql，虽说是sql但是还要写代码，所以没有hive方便，但是速度某些场景会比hive快，调优方面也是需要对spark底层运行原理有所了解

互联网服务 · 2017-07-04

浏览3982

查看赞同的人

rainforc研发工程师欢聚时代 alibaba

楼上说的比较清楚了，我再补充一些，hive其底层也是转化为mapreduce运行，对于使用者而言用sql代替写mapreduce，方便很多，但是同时也会失去一些灵活性，而spark主要基于内存运算，如果机器内存足够，使用spark能够更加快捷，应用场景比如比如实时推荐、聚类分析等等。

互联网服务 · 2017-07-07

浏览3675

查看赞同的人

提问者

技术经理picc

擅长领域：大数据，大数据平台，数据库

评论11

问题来自

活动 - 大数据处理平台技术产品选型探讨

相关问题

能否介绍一下ARM，海光各自在哪些应用场景下可以发挥相对较好的效果？

5G技术在金融银行行业中的应用及应用场景？

DataDomain在保险行业目前有哪些使用场景？

如何处理大数据集群因集群HIVE组件缓慢导致元数据库MYSQL的异常问题？

银行信创容器云适合承载哪些业务场景？稳定性如何保障？

相关资料

Spark快速大数据分析

分布式hadoop与spark集群搭建

Spark性能优化指南

MapReduce技术流程介绍

Spark The Definitive Guide

相关文章

浅谈国产数据库架构、应用场景及其存储适配

金融机构数字化转型背景下，集中式与分布式存储选型之辨和未来之路

金融行业关系型数据库信创技术路线选型实践总结（可供其他行业信创参考）

车企边缘计算应用场景探索解析

银行业数据长期保留需求场景及必要性探讨

问题状态

发布时间：2017-07-03

关注会员：5 人

问题浏览：6988

最近回答：2017-07-07

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广