软件开发Hadoop hdfs spark mapreduce 数据引擎

数据引擎分析，hadoop和spark 如何选择？

hadoop和spark 如何选择？

现在一般公司都用hadoop的hdfs进行存储，用spark做数据引擎分析。也有用mapreduce分析的。这2个怎么选择呢？

参与25

查看其它 3 个回答美国队长的回答

美国队长研发工程师Alibaba

理论上是数据量大，spark并不是很合适，另外你讲的20TB的数据MR处理shuffle是个硬伤，这个可以通过两个方面解决

业务方面：

看看你的具体的场景，是不是可以对数据进行一下拆解拆分，数据分析其实也是抽取一部分数据作为样品，等训练成熟了再去拿剩余数据去测试

技术方面:

2看看根据你的具体运行环境能否进行优化

互联网服务 · 2015-10-15

浏览1396

查看赞同的人

回答者

研发工程师Alibaba

擅长领域：大数据，大数据平台，数据库

评论172

美国队长最近回答过的问题

hadoop+spark 集群环境资源预估？

ambari的HADOOP集群，下SPARK2 HIVE HBASE等组件整合问题，类找不到？

问下页面发送请求，然后分布式计算再把结果返回给请求端，这个可以用spark实现吗？

基于hbase的用电信息采集系统如何设计？

Hadoop格式化时报错？

回答状态

发布时间：2015-10-15

关注会员：5 人

回答浏览：1396

关于TWT 使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们
© 2024talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30

X社区推广