互联网服务大数据 spark rdd

在使用spark计算引擎时，如何创建RDD？

1、RDD是Spark的核心数据模型，但是个抽象类，全称为Resillient Distributed Dataset，即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同节点上，从而让RDD中的数据可以被并行操作。如何在编写spark程序中...显示全部

关注2

参与10

查看其它 1 个回答windix的回答

windix

商业分析师某证券公司

主要有以下几种方法：
（1）通过parallelize方法从集合创建RDD：var rdd = sc.parallelize(1 to 10)
（2）通过textFile方法从本地文件或HDFS创建RDD：val rdd = sc.textFile("/filepath/file.txt")
（3）其他，如：通过jdbc读取关系型数据库创建jdbcRDD，使用hadoopFile、sequenceFile等方法创建RDD。

互联网服务 · 2018-10-19

查看赞同的人

twt社区管理员邀答

在使用spark计算引擎时，如何创建RDD？

查看其它 1 个回答windix的回答

回答者

windix 最近回答过的问题

回答状态