特征降维是无监督学习的另一种用法。在实际项目中,我们经常会遇到特征维度非常高的训练样本,此时又无法利用自己的领域知识人工构建有效特征。在数据表现层面,我们无法用图形展示超过三个维度的特征。因此,特征降维不仅可以帮助重构有效的低维度特征向量,同时为数据展现提供可能。
在特征降维的方法中,主成分分析(Principal Component Analysis)是最为经典和实用的特征降维技术,特别在辅助图像识别方面有突出表现。
线性相关矩阵的秩计算
假设,现在有一组2x2数据[(1,2),(2,4)]
这两个数据都会反映到一个类别或一个类簇。如果使用PCA分析的话,这个矩阵的“秩”是1.
也就是说,在多样性程度上,这个矩阵的自由度是1.
import numpy as np
M = np.array([[1, 2], [2, 4]])
np.linalg.matrix_rank(M, tol=None)