spark
spark
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
热点
来自主题:Hadoop · 2019-08-15
匿名用户
收藏1
评价8
金币1
来自主题:大数据 · 2018-10-08
赵法威twt 擅长领域:中间件, 数据库, 容器云
153 会员关注
收藏6
评价7
金币1
来自主题:大数据 · 2018-09-21
silencely阿里 擅长领域:机器学习, OpenStack, ds3512
88 会员关注
收藏5
评价10
金币5
来自主题:大数据 · 2018-08-23
silencely阿里 擅长领域:机器学习, OpenStack, ds3512
88 会员关注
收藏3
评价2
金币5
来自主题:大数据 · 2018-05-29
cys866上海优铭云计算有限公司 擅长领域:大数据, Hadoop, spark
7 会员关注
收藏1
评价4
金币3
来自主题:架构设计 · 2018-05-29
windix蚂蚁金服 擅长领域:大数据, spark, 大数据组件
178 会员关注
收藏2
评价1
金币3
来自主题:大数据 · 2018-05-08
cys866上海优铭云计算有限公司 擅长领域:大数据, Hadoop, spark
7 会员关注
数据湖项目的可行性a)数据湖技术大数据的出现,以及大数据处理平台Hadoop架构的出现,催生了数据湖的产生。最初数据湖的概念是2011年首先出现的,可以说,就像数据仓库是处理结构化数据的过程一样,数据湖是Hadoop用于处理大数据,包含结构化数据,非结构化数据的过程。虽然使用的技术...(more)
专栏: 最佳实践
浏览4994
评论1
来自主题:Redis · 2018-05-03
windix蚂蚁金服 擅长领域:大数据, spark, 大数据组件
178 会员关注
一、券商实施个性化推荐项目的必要性1.1个性化推荐技术发展背景目前,随着用户接收到的信息量爆炸般增长,传统的推荐以及服务方式的边际收益正在不断减少,用户个性化的需求变得越来越多。大数据实时个性化服务,主要基于大数据用户画像、产品画像建设成果,结合实时流计算框架,以...(more)
专栏: 最佳实践
浏览8386
评论4
来自主题:招聘 · 2017-12-13
Lancer互联网 擅长领域:大数据, MySQL, 中间件
468 会员关注
数据挖掘工程师(含实习生),2人,数学或计算机专业优先,有2年工作经验;或数据分析相关专业研究生可实习;熟悉2种以上分析开发工具:Python、R、SPSSModeler、Matlab、SAS、Java;熟悉Hadoop、Spark、HBase或其他大数据框架;熟悉SQL或Non-SQL数据库:Hive\Oracle\DB2\mysql等;...(more)
浏览6189
评论1
来自主题:机器学习 · 2017-10-11
时东南外资银行 擅长领域:人工智能, 知识图谱, 深度学习
201 会员关注
使用机器学习的方法可以解决越来越多的实际问题,它在现实世界中的应用越来越广泛,比如智能风控、欺诈检测、个性化推荐、机器翻译、模式识别、智能控制,等等。机器学习分类我们都知道,机器学习可以分为三大类:监督学习(SupervisedLearning)、无监督学习(UnsupervisedLearning)和强...(more)
浏览1700
描述
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
  • 提问题