线性分类器
线性分类器(Linear Classifiers),是假设特征与分类结果存在线性关系的模型。这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助类别决策。
支持向量机
支持向量机分类器(Support Vector Classifier),会根据训练样本的分布,搜索所有可能的线性分类器中最佳的那个。
我们将那些真正帮助决策最优线性分类模型的数据点叫做支持向量。
Logistic回归模型由于在训练过程中考虑了所有训练样本对参数的影响,因此不一定获得最佳分类器。
SVC的精妙之处在于其模型假设,可以帮助我们在海量甚至高维度的数据中,筛选对预测任务最为有效的少数训练样本。
朴素贝叶斯
朴素贝叶斯(Navie Bayes)是非常简单,但是实用性很强的分类模型。和上面基于线性假设的模型不同(LC、SVC),
朴素贝叶斯分类器的构造基础是贝叶斯理论。
朴素贝叶斯模型有广泛的实用场景,特别是在文本分类中,如互联网新闻分类、垃圾邮件筛选等。
K近邻(分类)
K近邻(K Near Neighbour)模型本身非常直观且容易理解。
我们只是根据测试样本在训练数据的分布直接作出分类决策,因此,K近邻属于无参数模型中的非常简单的一种。
决策树
比如,信用卡申请的审核涉及申请人的多项特征,是典型的决策树模型。
这类使用多种不同特征组合搭建多层决策树的情况,模型在学习时需要考虑特征节点的选区。
常用的度量方式包括信息熵和基尼不纯性(Gini Inpurity)