数据挖掘

数据挖掘的概念比较宽泛,指从大量的数据中通过算法挖掘出有用的信息。通常数据挖掘的常用方法大多来自于机器学习算法。

机器学习中的表是存储在MaxCompute中的,即MaxCompute 的数据存储单元。它在逻辑上也是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段,一条记录可以包含一个或多个列,各个列的名称和类型构成这张表的 Schema。
您可以在机器学习平台上创建、收藏表并导入数据,该表会自动存储在MaxCompute平台上。需要进入MaxCompute平台删除所创建的表。

生命周期

参数为lifecycle,在机器学习平台是指一个表的生命周期,指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被 MaxCompute 自动回收。这个 指定的时间 就是生命周期。表的回收机制请参见生命周期

稀疏数据格式

稀疏数据是指绝大多数数据为零或者缺失的数据集。稀疏数据不是无用数据,只是信息量不够全面,需要通过合适的方法挖掘出有用的信息。
在机器学习平台上,如果样本中某个特征的数据为稀疏格式,可以参考上传数据,将稀疏格式的数据转换成libsvm格式,并在参数设置界面勾选k:v,k:v稀疏数据格式,上传数据。

特征

特征是指描述一个对象的角度。比如对于一个人,可以从年龄、性别、职业等几个方面来描述,那么其中的每一项都是这个人的一个特征。
在机器学习平台,数据集是以表的形式存储的,那么每个表的一列就是该数据集的一个特征。数据的特征对于机器学习来说是非常重要的,特征和数据决定了机器学习的上限,而模型和算法只是逼近这个上限。所以在进行机器学习实验之前,首先要进行特征处理,常见的特征处理方法包括数据预处理、特征选择、降维等。

降维

维是指人们观察事物的角度。在机器学习方面,维是指描述一个数据集的特征。如果一个数据集有百万级的特征,那么机器学习训练的模型就会非常复杂,而且训练速度会非常缓慢。
所以需要对数据进行降维,即通过算法,将影响很小的维度去掉,从众多的特征中提取出具有代表性的特征。机器学习平台上的降维算法包括PCA、LDA等。

results matching ""

    No results matching ""