软件开发Hadoop hdfs spark mapreduce 数据引擎

数据引擎分析，hadoop和spark 如何选择？

hadoop和spark 如何选择？

现在一般公司都用hadoop的hdfs进行存储，用spark做数据引擎分析。也有用mapreduce分析的。这2个怎么选择呢？

关注5

参与25

4同行回答
全部行业
全部行业 互联网服务 软件开发 银行
|
按赞同排序
按时间排序

美国队长研发工程师Alibaba

mapreduce适用于数据量比较大这个跟其底层的实现有关因为他并不是完全依赖于内存，而spark拼的就是内存，如果响应速度要快而且数据量不是很大的时候，可以考虑使用spark，

互联网行业中一般离线的数据会考虑MR去跑，实时采用spark

收起

互联网服务 · 2015-10-14

查看赞同的人

lufeng1102
请教一个问题，如果数据量大，是不是Spark就不适合，或者说适合，要看配多少内存，如一次分析20TB数据，但是MR的shuffle的效率问题是个硬伤啊。
2015-10-15
赞同
评论

添加评论

yinxin项目经理某金融机构

数据存储结构也很重要

最终还是得根据实际的应用场景来选择使用何种存储结构，何种分析工具

hadoop不可用于联机数据分析，因为它不是为联机数据分析设计的，用的话会有很大的延时

spak的设计，对于硬件要求比较高，尤其是在数据量较大时。

收起

银行 · 2015-10-16

查看赞同的人

lufeng1102软件架构设计师cm

多谢你的回答。还有一些问题想请教一下。

对了，可能一个是数据量，一个是数据计算的复杂度。目前我们的场景是在HDFS和HBase上跑大量的SQL，这些SQL可以转换成MR，Spark或者Impala去跑。你这里说的数据拆分是一个方法，做增量的计算，这里的数据分析主要是做一些OLAP的分析，你说的分析可能更接近于机器学习。

Hadoop已经通过跑一些通用的MR测试，如wordcount和terasort等，把结果与其它所知道的结果进行对比，基本已经是比较优的。

我问一下，你们通过什么方面判断一个Hadoop平台是最优的，其实这里的最优是一个相对的概念，很多时间要做case by case的做成，同样的参考放在这个业务中是最优的，放在另一个业务中可能就不是最优的。

收起

软件开发 · 2015-10-15

查看赞同的人

美国队长研发工程师Alibaba

理论上是数据量大，spark并不是很合适，另外你讲的20TB的数据MR处理shuffle是个硬伤，这个可以通过两个方面解决

业务方面：

看看你的具体的场景，是不是可以对数据进行一下拆解拆分，数据分析其实也是抽取一部分数据作为样品，等训练成熟了再去拿剩余数据去测试

技术方面:

2看看根据你的具体运行环境能否进行优化

收起

互联网服务 · 2015-10-15

查看赞同的人

数据引擎分析，hadoop和spark 如何选择？

4同行回答
全部行业
全部行业 互联网服务 软件开发 银行
|
按赞同排序
按时间排序

提问者

问题来自

相关问题

相关资料

相关文章

问题状态

数据引擎分析，hadoop和spark 如何选择？

4同行回答全部行业全部行业互联网服务软件开发银行|按赞同排序按时间排序

提问者

问题来自

相关问题

相关资料

相关文章

问题状态

4同行回答
全部行业
全部行业互联网服务软件开发银行
|
按赞同排序
按时间排序