统计学习: 无监督学习

无监督学习

主成分分析

  • 主成分分析和主成分回归的第一步很像,使样本矩阵乘上载荷矩阵,载荷矩阵是p × M的矩阵,使共p个特征降维为M个特征,只不过无法通过交叉验证估计测试误差,也无法选择M
  • 主成分分析必须对载荷矩阵进行对标准化,中心化可选

聚类分析

K均值聚类

  • PCA的本质是降维,保留使得方差大的方向(数据投影到该方向上,能占据较宽的范围),证明这个方向很接近数据分布的方向,从而实现去噪声
  • K均值聚类则是在PCA的基础上做聚类任务,K均值聚类事先规定了K,而系统聚类通过人工分析得到最终的类别数
  • K均值聚类希望类内差异尽可能小,度量类内差异通常有:
    • 平方欧氏距离:{i,jC_k}||x{i}x_j||^2
  • K均值聚类的步骤:事先定义K个类中心,每次迭代使一个样本分类到距离其最近的类中心所代表的类里,然后重新根据类内差异计算类中心,直到所有点所属的类都不再变化

系统聚类

  • 凝聚法(自下而上):每次迭代选出两类合并为一类(初始每个样本独自为一类)
  • 选择合并双方的评判方法有:
    • 最长距离法:选取最大差异度最小的两类
    • 最短距离法:选取最小差异度最小的两类
    • 重心法:选取两类的重心(所有样本点各个特征的平均值为重心的各个特征值)距离最小的两类(会发生颠倒现象)
    • 类平均法:选取平均差异度最小的两类
  • 差异度的评判方法:
    • 欧氏距离
    • 基于相关性的距离