spark - 主题 - twt企业IT交流平台

文章
热度排序 时间排序

spark·2020-12-17

NebulaGraph · VEsoft　擅长领域：图数据库, 数据库, 大数据

5 会员关注

nebula-spark-connector-reader本文主要讲述如何利用SparkConnector进行NebulaGraph数据的读取。##SparkConnector简介SparkConnector是一个Spark的数据连接器，可以通过该连接器进行外部数据系统的读写操作，SparkConnector包含两部分，分别是Reader和Writer，而本文侧重介绍Spa...(more)

赞同

spark·2019-04-02

Spark常见故障诊断

yinxin · 某金融机构　擅长领域：数据库, 服务器, 云计算

976 会员关注

本人维护的Spark主要运行在三个Hadoop集群上，此外还有其他一些小集群或者隐私集群。这些机器加起来有三万台左右。目前运维的Spark主要有Spark2.3和Spark1.6两个版本。用户在使用的过程中难免会发生各种各样的问题，为了对经验进行沉淀，也为了给Spark用户提供一些借鉴，这里将...(more)

赞同

大数据处理·2019-03-25

五种大数据处理架构对比

yinxin · 某金融机构　擅长领域：数据库, 服务器, 云计算

976 会员关注

大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件：处理框架...(more)

赞同

大数据·2019-01-16

大数据时代背景下教育企业的精准化和个性化管理及服务实践常见问题

rein07 · 某证券　擅长领域：人工智能, 大数据, 机器学习

581 会员关注

大数据时代已经来临，教育行业作为社会大众共享的无形财富，其开放己成为数据整合和共享应用的前提条件。“十三五"期间有望形成和谐健康的行业生态。基础设施提供商、大数据服务商、数据挖掘与分析提供商、数据应用服务提供商、数据安全提供商、教育行政部门以及教育大数据...(more)

赞同3

专栏：活动总结

大数据·2018-10-16

十二种大数据技术组件详解及高可用性部署

windix

· 某证券公司　擅长领域：大数据, 数据库, 大数据平台

379 会员关注

一、前言近年来互联网的新业形态快速涌现，互联网金融和金融大数据快速发展，对经济提质增效的促进作用不断凸显。阿里巴巴、腾讯、百度等数据研发应用企业开始引领数据产业的发展。同时政府和科研机构也高度关注大数据。2012年：广东省启动了《广东省实施大数据战略工作方案》...(more)

赞同16

专栏：最佳实践

大数据·2018-05-08

基于Spark的数据湖项目初步实践

cys866 · 上海优铭云计算有限公司　擅长领域：大数据, 分布式系统, 服务器

7 会员关注

数据湖项目的可行性a)数据湖技术大数据的出现，以及大数据处理平台Hadoop架构的出现，催生了数据湖的产生。最初数据湖的概念是2011年首先出现的，可以说，就像数据仓库是处理结构化数据的过程一样，数据湖是Hadoop用于处理大数据，包含结构化数据，非结构化数据的过程。虽然使用的技术...(more)

赞同7

专栏：最佳实践

人工智能·2018-05-03

基于spark集群的券商个性化推荐系统架构设计最佳实践

windix

· 某证券公司　擅长领域：大数据, 数据库, 大数据平台

379 会员关注

一、券商实施个性化推荐项目的必要性1.1个性化推荐技术发展背景目前，随着用户接收到的信息量爆炸般增长，传统的推荐以及服务方式的边际收益正在不断减少，用户个性化的需求变得越来越多。大数据实时个性化服务，主要基于大数据用户画像、产品画像建设成果，结合实时流计算框架，以...(more)

赞同23

专栏：最佳实践

spark·2017-10-11

基于Spark ML Pipeline构建机器学习应用

时东南 · 外资银行　擅长领域：人工智能, 大数据, 机器学习

369 会员关注

使用机器学习的方法可以解决越来越多的实际问题，它在现实世界中的应用越来越广泛，比如智能风控、欺诈检测、个性化推荐、机器翻译、模式识别、智能控制，等等。机器学习分类我们都知道，机器学习可以分为三大类：监督学习（SupervisedLearning）、无监督学习（UnsupervisedLearning）和强...(more)

赞同4

大数据架构师·2017-09-26

大数据架构师必读：常见的七种Hadoop和Spark项目案例

姜沫 · 鞋盒新能源　擅长领域：服务器, 存储, 主机

60 会员关注

如果您的Hadoop项目将有新的突破，那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的事情，他们最终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm，每个人都认为他们正在做一...(more)

赞同4

spark·2017-08-23

基于Hive和Spark的十档行情计算

时东南 · 外资银行　擅长领域：人工智能, 大数据, 机器学习

369 会员关注

摘要十档行情指某只股票或者证券在某一时刻全市场的最低的十个卖出价格和最高的十个买入价格，每一个价格称之为一个档位。上海证券交易所市场监察部在进行数据协查和异常分析中需频繁使用个股任意时点的十档行情信息。临时还原档位行情数据的效率不高。因此，本文致力于基于...(more)

赞同5

描述

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不...(more)

378 会员关注

135 会员贡献

23 关系主题