Spark MLlib(Spark Machine Learning library),封装了若干工具:

  • ML算法:常见的学习算法,诸如分类,回归,聚类和过滤。

  • 特征化:特征抽取,转换,降维和选择

  • Pipeline:构建-预测-调参ML

  • 持久化:保存和加载算法、模型和Pipeline

  • 工具:linear algebra,统计,数据处理等

在Spark 2.0,基于RDD的API在spark.mllib 包维护;而基于DataFrame的API在spark.ml 维护。

results matching ""

    No results matching ""