Spark shell可以用来与分布式存储在许多机器的内存或硬盘上的数据交互,并且处理过程的分发由Spark自动控制完成。
Spark提供Python依据Scala的增强版shell,支持与集群的连接。
pyspark
如果需要打开Python版本的Spark shell,也就是PySpark Shell,则在Spark目录
bin/pyspark
pyspark指定参数
./bin/pyspark --master local[2]
spark-shell
如果需要打开Scala版本的shell,则
bin/spark-shell
在打开spark-shell时,可以指定参数
./bin/spark-shell --master local[2]
--master选项指定分布式集群的master URL。如果是local,可以指定使用的线程数量。
sparkR
自Spark 1.4之后,提供R API
./bin/sparkR --master local[2]