spark - 主题 - twt企业IT交流平台

热点

大数据处理·2019-03-25

976 会员关注

大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件：处理框架...(more)

赞同

大数据·2019-01-16

大数据时代背景下教育企业的精准化和个性化管理及服务实践常见问题

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

581 会员关注

大数据时代已经来临，教育行业作为社会大众共享的无形财富，其开放己成为数据整合和共享应用的前提条件。“十三五"期间有望形成和谐健康的行业生态。基础设施提供商、大数据服务商、数据挖掘与分析提供商、数据应用服务提供商、数据安全提供商、教育行政部门以及教育大数据...(more)

赞同3

专栏：活动总结

银行大数据·2018-12-24

大数据中的实时计算SPark和Storm优缺点是什么？分别适合于哪些场景？

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

581 会员关注

SparkStreaming和Strom都属于实时计算框架，有点都是可以做到对数据的实时处理。SparkStreaming是基于Spark Core实现的，所以对数据的处理要形成RDD，暨要形成数据窗口，所以其处理过程可以称之为微批处理，而storm是可以做到实时处理每一条数据的，所以相对来说，实时性比sparkstream...

赞同1

回答2

关注3

互联网服务spark·2018-11-20

如何修改spark sql在读取parquet文件时，每个partition的最大size？

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

581 会员关注

无论是hive还是spark，数据都是按数据块大小读取。建议试下写parquet文件前设置parquet.block.size参数，保证每个块大小合适，如果要在读取时改变并行效果，可以通过设置repartition调整partition个数。通过两个参数配合应该能满足你的需求。...

大数据·2018-09-21

silencely · 阿里　擅长领域：云计算, 大数据, 数据库

89 会员关注

下载 244

评价12

金币5

大数据·2018-08-23

Spark案例与实验教程

silencely · 阿里　擅长领域：云计算, 大数据, 数据库

89 会员关注

下载 55

评价2

金币5

大数据·2018-05-29

基于Spark的数据湖项目初步实践

cys866 · 上海优铭云计算有限公司　擅长领域：大数据, 分布式系统, 服务器

7 会员关注

下载 49

评价5

金币3

大数据·2018-05-29

基于spark集群的券商个性化推荐系统架构设计最佳实践

windix

· 某证券公司　擅长领域：大数据, 数据库, 大数据平台

379 会员关注

下载 91

评价2

金币3

大数据·2018-05-08

基于Spark的数据湖项目初步实践

cys866 · 上海优铭云计算有限公司　擅长领域：大数据, 分布式系统, 服务器

7 会员关注

数据湖项目的可行性a)数据湖技术大数据的出现，以及大数据处理平台Hadoop架构的出现，催生了数据湖的产生。最初数据湖的概念是2011年首先出现的，可以说，就像数据仓库是处理结构化数据的过程一样，数据湖是Hadoop用于处理大数据，包含结构化数据，非结构化数据的过程。虽然使用的技术...(more)

赞同7

专栏：最佳实践

人工智能·2018-05-03

基于spark集群的券商个性化推荐系统架构设计最佳实践

windix

· 某证券公司　擅长领域：大数据, 数据库, 大数据平台

379 会员关注

一、券商实施个性化推荐项目的必要性1.1个性化推荐技术发展背景目前，随着用户接收到的信息量爆炸般增长，传统的推荐以及服务方式的边际收益正在不断减少，用户个性化的需求变得越来越多。大数据实时个性化服务，主要基于大数据用户画像、产品画像建设成果，结合实时流计算框架，以...(more)

赞同23

专栏：最佳实践

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

135 会员贡献

23 关系主题