并行化集合主要通过SparkContext的parallelize 方法在driver程序中创建

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

并行化数据集的重要参数是partition的数目。

Spark可以通过任何Hadoop支持的存储源创建分布式数据集，包括本地文件、HDFS、Cassandra、HBase、Amazon S3等、

Spark支持文本文件，SequenceFiles，Hadoop InputFormat。

scala> val distFile = sc.textFile("data.txt")
distFile: org.apache.spark.rdd.RDD[String] = data.txt MapPartitionsRDD[10] at textFile at <console>:26

创建RDD

results matching ""