MLlib是spark的机器学习库,主要提供ML算法、特征化、Pipelines、持久化等。

自Spark 2.0开始,基于RDD的spark.mllib被基于DataFrame的spark.ml取代。

如果要在Python中使用MLlib,需要Numpy 1.4+

ML Pipelines在DataFrames基础上提供API封装,帮助用户创建和调试机器学习流程。

DataFrame是ML的数据集,可以存储各种数据类型。

Transformer是算法在pipeline中的称呼,可以将一个DataFrame转换为另一个DataFrame。模型Model就是一个Transformer,因为它将一个feature相关的DataFrame转变为prediction相关的DataFrame。

Estimator也是一种算法,它能将适配DataFrame产生Transformer。比如学习算法就是一个Estimator,它训练DataFrame从而产生model。

Pipeline会串联Transformer和Estimator从而指定ML工作流程。

Parameter就是参数,在Transformer和Estimator中都必不可少。

results matching ""

    No results matching ""