spark
spark
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

问题

互联网服务数据库·2015-02-12
杨博课题专家组 · 某科技公司 擅长领域:数据库, 服务器, 人工智能
234 会员关注
回复 1# cloudsher     简单的来说,spark是使用内存的hadoop,让数据运算速度更快。spark底层也是使用的mr,需要了解Hadoop,并且spark也是基于hadoop上的产品,学习建议从hadoop学起。
电信运营商数据库·2015-02-12
杨博课题专家组 · 某科技公司 擅长领域:数据库, 服务器, 人工智能
234 会员关注
回复 1# 月光无寒     推荐系统有使用hadoop做用户画像,配合流式计算做实时的个性化推荐。
互联网服务数据库·2015-02-11
杨博课题专家组 · 某科技公司 擅长领域:数据库, 服务器, 人工智能
234 会员关注
回复 1# arise     响应时间大概在秒级。可以实现online应用。数据数量及在p级。 node数量不限,目前国内最大的在5000台。最短路径的平均响应时间不确定。国内目前使用Neo4j的不多。
软件开发数据库·2015-02-11
杨博课题专家组 · 某科技公司 擅长领域:数据库, 服务器, 人工智能
234 会员关注
回复 1# Lee_185216     spark基于hadoop。
系统集成大数据·2014-12-11
一说大数据,人们往往想到Hadoop。这固然不错,但随着大数据技术的深入应用,多种类型的数据应用不断被要求提出,一些Hadoop被关注的范畴开始被人们注意,相关技术也迅速获得专业技术范畴的应用。最近半年来的Spark之热就是典型例子。  Spark是一个基于RAM计算的开源码ComputerC...(more)
浏览26638
IT其它大数据·2014-07-29
敏捷大数据应用开发者大会(2014)(2014年8月7号上海- 杨浦)==================================================================================不懂Hadoop/Hive/Storm/Spark/Hbase/Mahout/R等等,可以做大数据吗?大家都知道,目前实施大数据项目,需要基于以Hadoop为代表的框...(more)
浏览1796

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
X社区推广
  • 提问题