主成分分析图(Principal Component Analysis,PCA)是一组变量通过正交变换转变成另一组变量的分析方法,来实现数据降维的目的。转换后得到的这一组变量,即是我们所说的主成分。主成分分析图能帮助我们直观地感受样本在降维后空间中的分簇和聚合情况,这在一定程度上亦能体现样本在原始空间中的分布情况。
用于判断组内样本的重复性是否足够好(图上本组内各点的距离是否足够近)以及组间样本的差异是否足够大(图上组间各点之间的距离是否足够远)这两个指标。
优势:以方差衡量信息的无监督学习,不受样本标签限制,可减少指标选择的工作量。
缺点:主成分解释其含义往往具有一定的模糊性,不如原始样本完整,贡献率小的主成分往往可能含有对样本差异的重要信息,也就是可能对于区分样本的类别(标签)更有用。