Spark shell可以用来与分布式存储在许多机器的内存或硬盘上的数据交互,并且处理过程的分发由Spark自动控制完成。

Spark提供Python依据Scala的增强版shell,支持与集群的连接。

pyspark

如果需要打开Python版本的Spark shell,也就是PySpark Shell,则在Spark目录

bin/pyspark

pyspark指定参数

./bin/pyspark --master local[2]

spark-shell

如果需要打开Scala版本的shell,则

bin/spark-shell

在打开spark-shell时,可以指定参数

./bin/spark-shell --master local[2]

--master选项指定分布式集群的master URL。如果是local,可以指定使用的线程数量。

sparkR

自Spark 1.4之后,提供R API

./bin/sparkR --master local[2]

results matching ""

    No results matching ""