MLlib是spark的机器学习库，主要提供ML算法、特征化、Pipelines、持久化等。

自Spark 2.0开始，基于RDD的spark.mllib被基于DataFrame的spark.ml取代。

如果要在Python中使用MLlib，需要Numpy 1.4+

ML Pipelines在DataFrames基础上提供API封装，帮助用户创建和调试机器学习流程。

DataFrame是ML的数据集，可以存储各种数据类型。

Transformer是算法在pipeline中的称呼，可以将一个DataFrame转换为另一个DataFrame。模型Model就是一个Transformer，因为它将一个feature相关的DataFrame转变为prediction相关的DataFrame。

Estimator也是一种算法，它能将适配DataFrame产生Transformer。比如学习算法就是一个Estimator，它训练DataFrame从而产生model。

Pipeline会串联Transformer和Estimator从而指定ML工作流程。

Parameter就是参数，在Transformer和Estimator中都必不可少。

Spark Mlib

results matching ""