分类目录归档:数据降维算法

线性判别分析 LDA

LDA 算法是一种监督学习的降维技术

  • LDA 算法将高维空间中的d维数据通过投影转化成1维数据进行处理
  • 对于训练数据,LDA 算法会让同类数据的投影点尽可能接近,异类数据尽可能远离
  • 对于新数据分类,LDA 算法会先进行数据投影,再根据投影点位置来确定样本的类别

  • 左图思路:让不同类别的平均点距离最远的投影方式
  • 右图思路:让同类别的数据距离最近的投影方式

LDA算法降维流程如下:

​ 输入:数据集 $D = { (x_1,y_1),(x_2,y_2), ... ,(x_m,y_m) }$,其中样本 $x_i$ 是n维向量,$y_i \in {C_1, C_2, ..., C_k}$

Read more

瑞利熵问题

1 瑞利熵函数

瑞利熵(Rayleigh quotient)函数定义如下: $$R(A,x)=\frac{x^HAx}{x^Hx}$$

  • 其中$A$为$n\times n$的$Hermitian$矩阵;$x$为非零向量;$H$表示共轭转置
  • $Hermitian$矩阵,即厄尔米特矩阵(共轭转置矩阵和自己相等的矩阵)
  • 由于现实机器学习中很少遇见复数的情况,因此$A$可考虑为实对称矩阵

瑞利熵$R(A,x)$的重要性质: $$\lambda_{min}\leq R(A,x)\leq \lambda_{max}$$

  • 其中$\la

Read more

拉普拉斯特征映射 LE

拉普拉斯特征映射(Laplacian Eigenmaps,简称LE)是一种基于图的降维算法

前置知识:图论基础概念拉普拉斯矩阵谱聚类

LE算法核心思想:在低维空间内,尽可能保证局部样本间的结构不变

LE算法步骤:

  • 构建近邻图,方法可参考谱聚类一文中的数据转图
  • 根据已构建的图计算邻接矩阵$W$、度矩阵$D$和拉普拉斯矩阵$L$
  • 求解拉普拉斯矩阵,得到最小的$k$个特征值对应特征向量
  • 特征向量组成矩阵$H$,每一行都对应每个样本的降维后的稠密表示

LE算法分析:

  • 谱聚类相当于先经过LE(拉普拉斯特征映射)算法降维后的K-means聚类算法,因此谱聚类的核心推导过程就是LE算法。所以L

Read more

自编码器

自编码器,一种借助神经网络结构进行无监督学习的算法,常用于降维

自编码器主要有两个部分组成

  1. 编码器,用于将输入数据编码为低维稠密向量
  2. 解码器,根据低维稠密向量解码还原输入向量

最简单的自编码器形式是一个前馈无循环的神经网络,如下所示:

(图源:维基百科-自编码器)

自编码器VS主成分分析(PCA)

  • 自编码器是非线性降维,PCA是线性降维,前者效果一般更好
  • 前者通过梯度下降法训练,训练速度慢且不容易收敛
  • 后者通过特征分解直接计算,计算成本低效率高

#自编码器

Read more

主成分分析 PCA

主成分分析(Principal components analysis,PCA),一种常用的线性降维方法

算法步骤:

  1. 构建数据的协方差矩阵,并进行特征分解
  2. 特征向量描述的数据的主成分,特征值描述这一成分对应的权重
  3. 通过截断特征值较低的部分,保留数据集当中对方差贡献最大的特征
  4. 最终得到的降维特征无共线性(正交),但解释性差

图像理解:

(图源:维基百科-主成分分析)

  • 上图为二元高斯分布(正态分布),均值为$(1,3)$,方差为$(0.878,0.478)$
  • 黑色向量的方向描述的是协方差矩阵对应的特征向量
  • 黑色向量的长度描述的是特征向量对应的特征值

PCA 的优缺点分析:

  • 计算简单

Read more

局部线性嵌入

1 算法概况

局部线性嵌入(Locally Linear Embedding,以下简称LLE)是一种重要的降维方法。

和传统的PCA,LDA等关注样本方差的降维方法相比,LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,LLE广泛的用于图像图像识别,高维数据可视化等领域。

2 算法步骤

下图对LLE的原理进行了一个整体描述:

附件/Pasted image 20210820013908.png

2.1 选择近邻:

  • 求K近邻的过程,这个过程借助KNN算法找到最近邻的K个样本
  • 简单来说 ,就是通过计算样本间的欧

Read more