spark
spark
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

问题

电信运营商大数据·2015-11-06
月光无寒 · 新疆电信 擅长领域:大数据, 服务器, 大数据处理
3 会员关注
spark 5节点,每个节点8G内存,处理100G左右的数据,跑sparkmllib,每次都内存溢出。建议还是提升内存,起步128G。磁盘能放几个ssd.网卡现在主机标配1000M 3-6个,可以考虑捆绑,不捆绑也无所谓,但是万兆个人感觉没意义,如果确实需要,直接上infiniband了。...
银行hdfs·2015-11-06
尘世随缘 · 上海某互联网金融公司 擅长领域:云计算, 云原生, 微服务
86 会员关注
HDFS适合存放一次写入多次读取的方式,不适合实时读。所以大数据事件处理池一般建议队列+流式处理,例如kakfa+storm的方式来执行。
银行银行·2015-11-06
在银行IT建设中,Hadoop集群尚未开始大规模建设,已建设大数据平台的银行,在内存计算方面有哪几方面的应用场景呢?
浏览2314
电信运营商大数据·2015-11-06
loveryue · IBM 擅长领域:服务器, 数据库, 大数据
706 会员关注
这三个产品应该分成两个部分来看。1.spark,: Spark从狭义上来看,就是一个分布式计算框架。广义上来说,spark代表了spark BDAS整个软件栈。Spark主要处理一些海量的已经保存的历史数据,通过并行计算,内存计算等技术,使得响应时间大大降低。2. storm和Streams都是处理流数据的,流...
软件开发大数据平台·2015-11-04
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
511 会员关注
直接看Spark入门指导,最重要的是要上手操作。。。。
软件开发数据引擎·2015-10-14
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
511 会员关注
mapreduce适用于数据量比较大这个跟其底层的实现有关因为他并不是完全依赖于内存,而spark拼的就是内存,如果响应速度要快而且数据量不是很大的时候,可以考虑使用spark,互联网行业中一般离线的数据会考虑MR去跑,实时采用spark...
电信运营商spark·2015-10-13
美国队长 · Alibaba 擅长领域:大数据, 大数据平台, 数据库
511 会员关注
期待当然是花最少的成本解决最大的问题,哈哈,现在hive使用的还是比较成熟的,有条件的公司可以对其进行定制化
互联网服务大数据·2015-09-01
随着智能终端数量的极速增加,大数据已经成为当今社会的主题词。其高容量、高速度和多类型的特征也反映着时代的发展特点。为了能够挖掘大数据背后的潜在价值,Apache基金会提出了Hadoop平台。该平台的MapReduce框架一步步发展,已经成为大数据处理的核心技术。然而,MapReduce刚...(more)
浏览1866
轨道交通大数据·2015-08-26
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
在国内一些主要的应用场景中,Hadoop和Spark的配置其实是一致的,尤其是Spark on Yarn的使用场景,Spark是被当做Hadoop上的一个计算应用来提供服务的,调度以及资源分配完全依赖于Yarn。
软件开发大数据·2015-08-26
xuyanhui · 58同城大数据 擅长领域:服务器, 大数据, 大数据平台
475 会员关注
互联网公司的Spark使用场景主要是基于Hadoop的服务,更多的调度依赖于Hadoop Yarn的调度服务,以及Yarn的资源管理。Spark只是其一个计算应用的方式提供服务

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
X社区推广
  • 提问题