spark - 主题 - twt企业IT交流平台

文章
热度排序 时间排序

机器学习·2017-07-25

235 会员关注

本文将简要介绍Spark机器学习库（SparkMLlib’sAPIs）的各种机器学习算法，主要包括：统计算法、分类算法、聚类算法和协同过滤算法，以及各种算法的应用。你不是一个数据科学家。“根据科技和商业媒体报道，机器学习将防止全球变暖”，显然只有中国的新闻媒体才会发布类似的虚假新闻，可...(more)

赞同3

spark·2017-09-26

大数据架构师必读：常见的七种Hadoop和Spark项目案例

姜沫 · 鞋盒新能源　擅长领域：服务器, 存储, 主机

60 会员关注

如果您的Hadoop项目将有新的突破，那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm，每个人都认为他们正在做一...(more)

赞同4

机器学习·2017-10-11

基于Spark ML Pipeline构建机器学习应用

时东南 · 外资银行　擅长领域：人工智能, 大数据, 机器学习

371 会员关注

使用机器学习的方法可以解决越来越多的实际问题，它在现实世界中的应用越来越广泛，比如智能风控、欺诈检测、个性化推荐、机器翻译、模式识别、智能控制，等等。机器学习分类我们都知道，机器学习可以分为三大类：监督学习（SupervisedLearning）、无监督学习（UnsupervisedLearning）和强...(more)

赞同4

spark·2016-09-23

POWER8 的这些技术新动态，你可能不知道

twt运营 · twt　擅长领域：灾备, 双活, 云计算

492 会员关注

家以前可能有个感觉，Power小型机官方总是谈性能。但现在似乎不是了。随着POWER8推出，Power开始注重协作，一个很大的改变是关于CAPI，标准化的协作可以让Power在不同的环境性能有不同的优势。Power不再只是一个硬件，而是一个解决方案。尤其是在私有云、混合云的构建和管理、大数...(more)

赞同

大数据·2017-07-07

大数据环境下该如何优雅地设计数据分层？

gossipyboy · 某城市商业银行　擅长领域：大数据, 服务器, 分布式系统

发个牢骚，搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司，都需要对数据仓库有一定的重视，而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了etl、调度、建模在内的完整的理论体系。现在...(more)

赞同3

大数据·2015-04-02

Spark：为大数据处理点亮一盏明灯(4)

qiqiwang · qiqiwang　擅长领域：大数据, 商业智能, 数据库

12 会员关注

一整套集成化分析生态系统Spark所采用的底层RDD抽象机制构建起整个Spark生态系统的核心数据结构。在机器学习（MLlib）、数据查询（Spark SQL）、图形分析（GraphX）以及流运行（Spark Streaming）等模块的共同支持下，开发人员能够以无缝化方式使用来自任意单一应用程序的库。举例来说，开发...(more)

赞同

大数据·2015-04-02

Spark：为大数据处理点亮一盏明灯(2)

qiqiwang · qiqiwang　擅长领域：大数据, 商业智能, 数据库

12 会员关注

弹性分布式数据集对于RDD的使用贯穿于整套堆栈当中，而这也成为Spark如此强大的根基之一。无论是从概念层面还是实施层面，RDD都显得非常简单; RDD类当中的大部分方法都在20行以内。而从核心角度看，RDD属于一套分布式记录集合，由某种形式的持久性存储作为依托并配备一系列转换...(more)

赞同

大数据·2015-04-02

Spark：为大数据处理点亮一盏明灯(1)

qiqiwang · qiqiwang　擅长领域：大数据, 商业智能, 数据库

12 会员关注

Apache Spark项目于2009年诞生于伯克利大学的AMPLab实验室，当初的目的在于将内存内分析机制引入大规模数据集当中。在那个时候，Hadoop MapReduce的关注重点仍然放在那些本质上无法迭代的大规模数据管道身上。想在2009年以MapReduce为基础构建起分析模型实在是件费心费力而...(more)

赞同1

数据库·2015-06-18

IBM加入Spark社区计划培养百万数据科学家

asd456 · JF　擅长领域：数据库, 关系型数据库, 数据库系统改造

1 会员关注

IBM近日宣布，将大力推进Apache Spark项目，并称该项目为：在以数据为主导的，未来十年最为重要的新的开源项目。IBM计划将Spark嵌入其分析和商务平台，并将Spark作为一项服务，在IBMBluemix云平台上提供给客户。IBM还将投入超过3500名研究和开发人员在全球十余个实验室开展与S...(more)

赞同

spark·2017-07-21

mapreduce采用多进程与spark采用多线程比较

建奎生 · 长安　擅长领域：大数据, 人工智能, 大数据处理

109 会员关注

ApacheSpark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop2.0（包括YARN和MapReduce）是一致的。Hadoop2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而ApacheSpark则直接采用了开源软件Akka，该软件实现了Actor模型...(more)

赞同4

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

137 会员贡献

23 关系主题