spark
spark
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

文章

数据库·2015-02-12
夏日毛毛雪 · AIC 擅长领域:数据库, 分布式系统, 大数据
2 会员关注
因为Spark是内存当中的计算框架,集群中的任何资源都会让它处于瓶颈,CPU、内存、网络带宽。通常,内存足够的情况之下,网络带宽是瓶颈,这时我们就需要进行一些调优,比如用一种序列化的方式来存储RDD来减少内存使用,这边文章就讲两种方式,数据序列化和内存调优,接下来我们会分几个主...(more)
浏览1695
spark·2015-06-19
lihe · 华夏证券 擅长领域:大数据, 商业智能, 数据库
185 会员关注
本文综合了Hortonworks、Cloudera、MapR三家主要的Hadoop发行版供应商的Hadoop应用案例,真是各有神通,不服来辩。Cloudera:加速数据分析Edo Interactive是一家美国市场营销公司,帮助广告主连接线上广告和线下数据,提供数据驱动的个性化推荐服务。不过几年前,Edo遇到了这样的问...(more)
浏览1149
大数据·2015-07-29
yinxin · 某金融机构 擅长领域:数据库, 服务器, 云计算
979 会员关注
IBM日前宣布,将大力推进Apache Spark项目,并称该项目是在以数据为主导的,未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台,并将Spark作为一项服务,在IBM Bluemix平台上提供给客户。IBM还将投入超过3500名研究和开发人员在全球10余个...(more)
浏览1213
数据库·2015-08-03
wnxyer · 某银行 擅长领域:数据库, 两地三中心, 新核心系统
Spark 是目前相当火热的开源计算框架,相对于 Hadoop ,Spark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据,应用可以以内存的速度进行运算;Spark的易用性在于通用的API,用户可以编写复杂的并行计算程序,使之看上去就像串行程序。这也使得Spark程序更容易开发和读...(more)
浏览1304
数据库·2015-02-25
夏日毛毛雪 · AIC 擅长领域:数据库, 分布式系统, 大数据
2 会员关注
尽管适合大多数批处理工作负载,而且在大数据时代成为企业的首选技术,但由于以下几个限制,它对一些工作负载并不是最优选择: 缺少对迭代的支持 需要将中间数据存在硬盘上以保持一致性,因此会有比较高的延迟 当然,整个Hadoop生态系统是在不断演进的,包括Map/Reduce已经证明...(more)
浏览2136
大数据·2015-04-02
qiqiwang · qiqiwang 擅长领域:大数据, 商业智能, 数据库
12 会员关注
——实时商务智能目前已经逐步迈入主流,而Storm与Spark开源项目的支持无疑在其中起到了显著的推动作用。那么问题来了:实时处理到底哪家强?实时商务智能这一构想早已算不得什么新生事物(早在2006年维基百科中就出现了关于这一概念的页面)。然而尽管人们多年来一直在对此类方案...(more)
浏览1566
spark·2015-05-22
gaopin · 新云东方 擅长领域:服务器, 存储, 数据库
176 会员关注
Ubuntu 64基本环境配置安装JDK,下载jdk-8u45-linux-x64.tar.gz,解压到/opt/jdk1.8.0_45           下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html安装scala,下载scala-2.11.6.tgz,...(more)
浏览1194
大数据·2015-04-02
qiqiwang · qiqiwang 擅长领域:大数据, 商业智能, 数据库
12 会员关注
监控与运维每一款驱动程序都拥有自己的一套Web UI,通常为端口4040,其中显示所有实用性信息——包括当前运行任务、调度程度、执行器、阶段、内存与存储使用率、RDD等等。这套UI主要充当信息交付工具,而非针对Spark应用程序或者集群的管理方案。当然,这也是调试以及性能调整之...(more)
浏览1337
spark·2015-03-25
eric · 某金融单位 擅长领域:云计算, 服务器, 私有云
1048 会员关注
Spark是一个超有潜力的通用数据计算平台,无论是对统计科学家还是数据工程师。数据科学是一个广阔的领域。我自认是一个数据科学家,但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营,而我正处于第二阵营。统计科学家使用交互式的统...(more)
浏览1360
数据库·2015-04-29
DB2中国社区 · TWT 擅长领域:数据库, 关系型数据库, 新核心系统
8 会员关注
社区专家王家林入驻『Hadoop应用』王家林的个人社区主页:http://www.db2china.net/home/space.php?uid=158919Spark亚太研究院院长和首席专家,移动互联网、云计算和大数据技术领域技术集大成者。当今云计算领域最火爆的技术Docker源码级专家和Docker技术在中国的最早实践者...(more)
浏览814

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
X社区推广
  • 提问题