spark
spark
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
热点
来自主题:spark · 2019-08-15
匿名用户
收藏1
评价9
金币1
来自主题:产品选型 · 2019-04-10
左右ex-IBM 擅长领域:cognos, 报表, 云平台
24 会员关注
关注一下 同时补充一些背景,这块我参与的比较深所以有一些观点刚好也借此机会跟同行们讨论一下。 首先是BI层由于存在自主分析的需求,所以聚合结果或者临时表这种方式业务上不可行,客户常见的分析维度经过多轮筛选依旧在70+个,且个人认为随着产品更加扁平维度会以标签的形式...
浏览1973
回答3
来自主题:spark · 2018-11-20
rein07某证券 擅长领域:深度学习, 大数据, 人工智能
389 会员关注
无论是hive还是spark,数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数,保证每个块大小合适,如果要在读取时改变并行效果,可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。...
浏览3424
回答1
来自主题:spark · 2018-10-08
赵法威twt 擅长领域:中间件, 操作系统, 数据库
185 会员关注
收藏7
评价7
金币1
来自主题:spark · 2018-09-21
silencely阿里 擅长领域:机器学习, OpenStack, ds3512
89 会员关注
收藏5
评价10
金币5
来自主题:spark · 2018-08-23
silencely阿里 擅长领域:机器学习, OpenStack, ds3512
89 会员关注
收藏3
评价2
金币5
来自主题:招聘 · 2018-06-11
Lancer互联网 擅长领域:大数据, MySQL, 中间件
540 会员关注
大数据运维工程师主要职责:1、负责医疗健康大数据云计算平台的架构设计和实施部署;2、管理和监控IaaS平台,确保SLA;3、部署和维护Hadoop集群;4、解决部署和运维过程中遇到的技术和性能问题。任职要求:1、2年以上实施和运维Hadoop相关大数据平台和技术栈生产系统经验;2、熟悉云平...(more)
浏览4540
来自主题:spark · 2018-05-29
cys866上海优铭云计算有限公司 擅长领域:大数据, Hadoop, spark
7 会员关注
收藏1
评价5
金币3
来自主题:架构设计 · 2018-05-29
windix蚂蚁金服 擅长领域:大数据, spark, 大数据组件
227 会员关注
收藏2
评价1
金币3
来自主题:spark · 2018-05-08
cys866上海优铭云计算有限公司 擅长领域:大数据, Hadoop, spark
7 会员关注
数据湖项目的可行性a)数据湖技术大数据的出现,以及大数据处理平台Hadoop架构的出现,催生了数据湖的产生。最初数据湖的概念是2011年首先出现的,可以说,就像数据仓库是处理结构化数据的过程一样,数据湖是Hadoop用于处理大数据,包含结构化数据,非结构化数据的过程。虽然使用的技术...(more)
专栏: 最佳实践
浏览5344
评论1
描述
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不...(more)
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
  • 提问题