数据引擎分析,hadoop和spark 如何选择?

hadoop和spark 如何选择?现在一般公司都用hadoop的hdfs进行存储,用spark做数据引擎分析。也有用mapreduce分析的。这2个怎么选择呢?显示全部

hadoop和spark 如何选择?

现在一般公司都用hadoop的hdfs进行存储,用spark做数据引擎分析。也有用mapreduce分析的。这2个怎么选择呢?

收起
参与25

查看其它 3 个回答美国队长的回答

美国队长美国队长研发工程师Alibaba

理论上是数据量大,spark并不是很合适,另外你讲的20TB的数据MR处理shuffle是个硬伤,这个可以通过两个方面解决

业务方面:

看看你的具体的场景,是不是可以对数据进行一下拆解拆分,数据分析其实也是抽取一部分数据作为样品,等训练成熟了再去拿剩余数据去测试

技术方面:

2看看根据你的具体运行环境能否进行优化

互联网服务 · 2015-10-15
浏览1396

回答者

美国队长
研发工程师Alibaba
擅长领域: 大数据大数据平台数据库

美国队长 最近回答过的问题

回答状态

  • 发布时间:2015-10-15
  • 关注会员:5 人
  • 回答浏览:1396
  • X社区推广