Spark MLlib(Spark Machine Learning library),封装了若干工具:
ML算法:常见的学习算法,诸如分类,回归,聚类和过滤。
特征化:特征抽取,转换,降维和选择
Pipeline:构建-预测-调参ML
持久化:保存和加载算法、模型和Pipeline
工具:linear algebra,统计,数据处理等
在Spark 2.0,基于RDD的API在spark.mllib 包维护;而基于DataFrame的API在spark.ml 维护。
spark.mllib
spark.ml