spark
spark
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

问题

软件开发大数据·2015-08-26
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
互联网公司的Spark使用场景主要是基于Hadoop的服务,更多的调度依赖于Hadoop Yarn的调度服务,以及Yarn的资源管理。Spark只是其一个计算应用的方式提供服务
软件开发大数据·2015-08-25
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
其实两者是一个意思,大数据环境下两者服务是互补的,先说Hadoop的服务,主要依赖于HDFS的存储,离线的计算MR或者hive以及其他组件,Spark可以作为Hadoop HDFS基础上的一种基于迭代计算的服务组件,相互配合使用更为合理,所以在官方的Hadoop架构图中Spark是其Yarn上的一个计算单元来...
银行spark·2015-08-21
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
512 会员关注
spark跟hadooop都是mr,只不过spark所有数据尽量走内存速度会比hadoop快一些,hadoop适用于比较大的数据量
银行spark·2015-08-21
尘世随缘 · 上海某互联网金融公司 擅长领域:云计算, 云原生, 微服务
86 会员关注
这种各有千秋,但是替代肯定是不现实的。业务场景不一样,使用的工具不一样。业务决定工具
互联网服务Docker·2015-08-03
flying_eagle · 某汽车制造公司 擅长领域:服务器, Linux, 云计算
265 会员关注
容器启动时可以设置网络模式为共用Host的网络,这样就使用的是同一个IP了
软件开发数据库·2015-07-21
问题如下:文件路径包括日期和时间,比如:2015/06/26/00/00/7A7C2C05-4B06-A1A0-1636-FB24741A3A10.txt如果要查询2015/06/26/00/00 到 2015/07/05/03/00这段时间的所有文件,在hadoop或者spark, 输入应该是什么格式?...(more)
浏览1926
软件开发数据库·2015-06-09
这是eclipse的日志:----------------------------------------------------------------------------------------------------------------------------------------Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties15/06/09 13:44:42 ...(more)
浏览4551
电信运营商spark·2015-06-04
北京荣歆咨询 · 北京荣歆咨询有限公司 擅长领域:服务器, 存储, 数据库
290 会员关注
兼容性应该问题不大。毕竟,POWER可以跑linux,开源的大数据软件运行在linux上门槛不高。说到实际案例,大数据的还是有的,最有名的watson不就是运行在POWER7上嘛。当然,开源的这些大数据方案由于成本的原因,很少考虑用POWER....
电信运营商spark·2015-06-04
北京荣歆咨询 · 北京荣歆咨询有限公司 擅长领域:服务器, 存储, 数据库
290 会员关注
随着内存成本下降,内存越配越大,硬盘有慢慢变成近线存储的趋势。
电信运营商spark·2015-06-04
phanx · 银行 擅长领域:服务器, 数据库, AIX
105 会员关注
回复 3# liucx Hadoop平台网络尽量考虑万兆。 节点间的流量大,千兆会成为瓶颈。你可以阅读一下Cloudera的这篇Blog。 Cloudera是Hadoop的一个企业发行版厂商,Cloudera和Hadoop的关系类似Redhat和Linux的关系。How-to: Select the Right Hardware for Your New Hadoop Clust...

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
X社区推广
  • 提问题