并行化集合主要通过SparkContext的parallelize
方法在driver程序中创建
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)
并行化数据集的重要参数是partition的数目。
Spark可以通过任何Hadoop支持的存储源创建分布式数据集,包括本地文件、HDFS、Cassandra、HBase、Amazon S3等、
Spark支持文本文件,SequenceFiles,Hadoop InputFormat。
scala> val distFile = sc.textFile("data.txt")
distFile: org.apache.spark.rdd.RDD[String] = data.txt MapPartitionsRDD[10] at textFile at <console>:26