spark - 主题 - twt企业IT交流平台

文章
热度排序 时间排序

数据库·2015-02-12

2 会员关注

因为Spark是内存当中的计算框架，集群中的任何资源都会让它处于瓶颈，CPU、内存、网络带宽。通常，内存足够的情况之下，网络带宽是瓶颈，这时我们就需要进行一些调优，比如用一种序列化的方式来存储RDD来减少内存使用，这边文章就讲两种方式，数据序列化和内存调优，接下来我们会分几个主...(more)

赞同

spark·2015-06-19

从Hadoop到Spark的架构实践

lihe · 华夏证券　擅长领域：大数据, 商业智能, 数据库

185 会员关注

本文综合了Hortonworks、Cloudera、MapR三家主要的Hadoop发行版供应商的Hadoop应用案例，真是各有神通，不服来辩。Cloudera：加速数据分析Edo Interactive是一家美国市场营销公司，帮助广告主连接线上广告和线下数据，提供数据驱动的个性化推荐服务。不过几年前，Edo遇到了这样的问...(more)

赞同

大数据·2015-07-29

IBM大力推进Spark项目计划培养100多万数据科学家

yinxin · 某金融机构　擅长领域：数据库, 服务器, 云计算

979 会员关注

IBM日前宣布，将大力推进Apache Spark项目，并称该项目是在以数据为主导的，未来十年最为重要的新的开源项目。这一承诺的核心是将Spark嵌入IBM业内领先的分析和商务平台，并将Spark作为一项服务，在IBM Bluemix平台上提供给客户。IBM还将投入超过3500名研究和开发人员在全球10余个...(more)

赞同

数据库·2015-08-03

IBM如何拥抱Spark

wnxyer · 某银行　擅长领域：数据库, 两地三中心, 新核心系统

Spark 是目前相当火热的开源计算框架，相对于 Hadoop ，Spark优势是高性能和易用性。Spark的高性能源于其采用内存储存数据，应用可以以内存的速度进行运算；Spark的易用性在于通用的API，用户可以编写复杂的并行计算程序，使之看上去就像串行程序。这也使得Spark程序更容易开发和读...(more)

赞同

数据库·2015-02-25

低延迟大规模并行处理架构Spark简介

夏日毛毛雪 · AIC　擅长领域：数据库, 分布式系统, 大数据

2 会员关注

尽管适合大多数批处理工作负载，而且在大数据时代成为企业的首选技术，但由于以下几个限制，它对一些工作负载并不是最优选择：缺少对迭代的支持需要将中间数据存在硬盘上以保持一致性，因此会有比较高的延迟当然，整个Hadoop生态系统是在不断演进的，包括Map/Reduce已经证明...(more)

赞同

大数据·2015-04-02

Storm与Spark：谁才是我们的实时处理利器

qiqiwang · qiqiwang　擅长领域：大数据, 商业智能, 数据库

12 会员关注

——实时商务智能目前已经逐步迈入主流，而Storm与Spark开源项目的支持无疑在其中起到了显著的推动作用。那么问题来了：实时处理到底哪家强？实时商务智能这一构想早已算不得什么新生事物（早在2006年维基百科中就出现了关于这一概念的页面）。然而尽管人们多年来一直在对此类方案...(more)

赞同1

spark·2015-05-22

Ubuntu下Spark开发环境搭建

gaopin · 新云东方　擅长领域：服务器, 存储, 数据库

176 会员关注

Ubuntu 64基本环境配置安装JDK，下载jdk-8u45-linux-x64.tar.gz，解压到/opt/jdk1.8.0_45 下载地址：http://www.oracle.com/technetwork/java/javase/downloads/index.html安装scala,下载scala-2.11.6.tgz，...(more)

赞同

大数据·2015-04-02

Spark：为大数据处理点亮一盏明灯(3)

qiqiwang · qiqiwang　擅长领域：大数据, 商业智能, 数据库

12 会员关注

监控与运维每一款驱动程序都拥有自己的一套Web UI，通常为端口4040，其中显示所有实用性信息——包括当前运行任务、调度程度、执行器、阶段、内存与存储使用率、RDD等等。这套UI主要充当信息交付工具，而非针对Spark应用程序或者集群的管理方案。当然，这也是调试以及性能调整之...(more)

赞同

spark·2015-03-25

为什么Spark将成为数据科学家的统一平台

eric · 某金融单位　擅长领域：云计算, 服务器, 私有云

1048 会员关注

Spark是一个超有潜力的通用数据计算平台，无论是对统计科学家还是数据工程师。数据科学是一个广阔的领域。我自认是一个数据科学家，但和另外一批数据科学家又有很多的不同。数据科学家通常分为统计科学家和数据工程师两个阵营，而我正处于第二阵营。统计科学家使用交互式的统...(more)

赞同

数据库·2015-04-29

社区专家王家林入驻『Hadoop应用』

DB2中国社区 · TWT　擅长领域：数据库, 关系型数据库, 新核心系统

8 会员关注

社区专家王家林入驻『Hadoop应用』王家林的个人社区主页：http://www.db2china.net/home/space.php?uid=158919Spark亚太研究院院长和首席专家，移动互联网、云计算和大数据技术领域技术集大成者。当今云计算领域最火爆的技术Docker源码级专家和Docker技术在中国的最早实践者...(more)

赞同

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

137 会员贡献

23 关系主题