spark
spark
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
热点
来自主题:Hadoop · 2019-08-15
匿名用户
收藏1
评价9
金币1
来自主题:大数据 · 2018-10-08
赵法威twt 擅长领域:中间件, 数据库, 容器云
173 会员关注
收藏6
评价7
金币1
来自主题:大数据 · 2018-09-21
silencely阿里 擅长领域:机器学习, OpenStack, 数据恢复
89 会员关注
收藏5
评价10
金币5
来自主题:大数据 · 2018-08-23
silencely阿里 擅长领域:机器学习, OpenStack, 数据恢复
89 会员关注
收藏3
评价2
金币5
来自主题:大数据 · 2018-05-29
cys866上海优铭云计算有限公司 擅长领域:大数据, Hadoop, spark
7 会员关注
收藏1
评价5
金币3
来自主题:大数据 · 2018-05-29
windix蚂蚁金服 擅长领域:大数据, spark, 大数据组件
214 会员关注
收藏2
评价1
金币3
来自主题:大数据 · 2018-05-08
cys866上海优铭云计算有限公司 擅长领域:大数据, Hadoop, spark
7 会员关注
数据湖项目的可行性a)数据湖技术大数据的出现,以及大数据处理平台Hadoop架构的出现,催生了数据湖的产生。最初数据湖的概念是2011年首先出现的,可以说,就像数据仓库是处理结构化数据的过程一样,数据湖是Hadoop用于处理大数据,包含结构化数据,非结构化数据的过程。虽然使用的技术...(more)
专栏: 最佳实践
浏览5254
评论1
来自主题:大数据 · 2018-05-03
windix蚂蚁金服 擅长领域:大数据, spark, 大数据组件
214 会员关注
一、券商实施个性化推荐项目的必要性1.1个性化推荐技术发展背景目前,随着用户接收到的信息量爆炸般增长,传统的推荐以及服务方式的边际收益正在不断减少,用户个性化的需求变得越来越多。大数据实时个性化服务,主要基于大数据用户画像、产品画像建设成果,结合实时流计算框架,以...(more)
专栏: 最佳实践
浏览8942
评论4
来自主题:招聘 · 2018-03-07
Lancer互联网 擅长领域:大数据, MySQL, 中间件
515 会员关注
大数据架构师岗位职责:1.负责大数据分析平台以及海量数据处理分布式平台架构设计;2.负责大数据分析平台开发及团队开发指导;3.参与重点项目的评审,指导、审核项目总体技术方案;4.参与企业数据管理体系建设。任职要求1.全日制统招本科及以上学历,在大数据处理和分析领域具有3年(...(more)
浏览4352
来自主题:招聘 · 2017-12-13
Lancer互联网 擅长领域:大数据, MySQL, 中间件
515 会员关注
数据挖掘工程师(含实习生),2人,数学或计算机专业优先,有2年工作经验;或数据分析相关专业研究生可实习;熟悉2种以上分析开发工具:Python、R、SPSSModeler、Matlab、SAS、Java;熟悉Hadoop、Spark、HBase或其他大数据框架;熟悉SQL或Non-SQL数据库:Hive\Oracle\DB2\mysql等;...(more)
浏览6438
评论1
描述
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
  • 提问题