spark
spark
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

文章

spark·2020-12-17
NebulaGraph · VEsoft 擅长领域:图数据库, 数据库, 大数据
5 会员关注
nebula-spark-connector-reader本文主要讲述如何利用SparkConnector进行NebulaGraph数据的读取。##SparkConnector简介SparkConnector是一个Spark的数据连接器,可以通过该连接器进行外部数据系统的读写操作,SparkConnector包含两部分,分别是Reader和Writer,而本文侧重介绍Spa...(more)
浏览2099
spark·2019-04-02
yinxin · 某金融机构 擅长领域:数据库, 服务器, 云计算
976 会员关注
本人维护的Spark主要运行在三个Hadoop集群上,此外还有其他一些小集群或者隐私集群。这些机器加起来有三万台左右。目前运维的Spark主要有Spark2.3和Spark1.6两个版本。用户在使用的过程中难免会发生各种各样的问题,为了对经验进行沉淀,也为了给Spark用户提供一些借鉴,这里将...(more)
浏览1556
评论1
大数据处理·2019-03-25
yinxin · 某金融机构 擅长领域:数据库, 服务器, 云计算
976 会员关注
大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件:处理框架...(more)
浏览1536
大数据·2019-01-16
rein07 · 某证券 擅长领域:人工智能, 大数据, 机器学习
581 会员关注
大数据时代已经来临,教育行业作为社会大众共享的无形财富,其开放己成为数据整合和共享应用的前提条件。“十三五"期间有望形成和谐健康的行业生态。基础设施提供商、大数据服务商、数据挖掘与分析提供商、数据应用服务提供商、数据安全提供商、教育行政部门以及教育大数据...(more)
专栏: 活动总结
浏览4942
大数据·2018-10-16
windix联盟成员 · 某证券公司 擅长领域:大数据, 数据库, 大数据平台
379 会员关注
一、前言近年来互联网的新业形态快速涌现,互联网金融和金融大数据快速发展,对经济提质增效的促进作用不断凸显。阿里巴巴、腾讯、百度等数据研发应用企业开始引领数据产业的发展。同时政府和科研机构也高度关注大数据。2012年:广东省启动了《广东省实施大数据战略工作方案》...(more)
专栏: 最佳实践
浏览10831
评论1
大数据·2018-05-08
cys866 · 上海优铭云计算有限公司 擅长领域:大数据, 分布式系统, 服务器
7 会员关注
数据湖项目的可行性a)数据湖技术大数据的出现,以及大数据处理平台Hadoop架构的出现,催生了数据湖的产生。最初数据湖的概念是2011年首先出现的,可以说,就像数据仓库是处理结构化数据的过程一样,数据湖是Hadoop用于处理大数据,包含结构化数据,非结构化数据的过程。虽然使用的技术...(more)
专栏: 最佳实践
浏览7057
评论1
人工智能·2018-05-03
windix联盟成员 · 某证券公司 擅长领域:大数据, 数据库, 大数据平台
379 会员关注
一、券商实施个性化推荐项目的必要性1.1个性化推荐技术发展背景目前,随着用户接收到的信息量爆炸般增长,传统的推荐以及服务方式的边际收益正在不断减少,用户个性化的需求变得越来越多。大数据实时个性化服务,主要基于大数据用户画像、产品画像建设成果,结合实时流计算框架,以...(more)
专栏: 最佳实践
浏览13172
评论4
spark·2017-10-11
时东南 · 外资银行 擅长领域:人工智能, 大数据, 机器学习
369 会员关注
使用机器学习的方法可以解决越来越多的实际问题,它在现实世界中的应用越来越广泛,比如智能风控、欺诈检测、个性化推荐、机器翻译、模式识别、智能控制,等等。机器学习分类我们都知道,机器学习可以分为三大类:监督学习(SupervisedLearning)、无监督学习(UnsupervisedLearning)和强...(more)
浏览2732
大数据架构师·2017-09-26
姜沫 · 鞋盒新能源 擅长领域:服务器, 存储, 主机
60 会员关注
如果您的Hadoop项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情,他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做一...(more)
浏览1167
spark·2017-08-23
时东南 · 外资银行 擅长领域:人工智能, 大数据, 机器学习
369 会员关注
摘要十档行情指某只股票或者证券在某一时刻全市场的最低的十个卖出价格和最高的十个买入价格,每一个价格称之为一个档位。上海证券交易所市场监察部在进行数据协查和异常分析中需频繁使用个股任意时点的十档行情信息。临时还原档位行情数据的效率不高。因此,本文致力于基于...(more)
浏览2826

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
X社区推广
  • 提问题