数据相关性分析

相关性度量

皮尔逊相关系数

皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称PPMCC或PCCs)

  • 最常见的相关系数,所以文章或教学中常见的"相关系数"指的就是皮尔逊相关系数
  • 皮尔逊相关系数用于度量两组数据的变量X和Y之间的线性相关的程度

适用范围:

  • 前提假设是两个变量是连续且服从正态分布
  • 两组变量的样本量也应该尽可能保持一致
  • 但是对于非独立非正态分布变量,研究皮尔逊积矩相关系数也是有意义的

皮尔逊相关系数的定义: $$\rho_{X,Y}=\frac{cov(X,Y)}{\sigma_X \sigma_Y}=\frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X \sigma_Y}$$

  • 其计算过程就是两个变量的协方差除以它们标准差的乘积
  • 值域范围在-1~1之间,绝对值表示相关性强度,正负号表示相关性方向

斯皮尔曼相关系数

斯皮尔曼等级相关系数(等级相关系数,秩相关系数,Spearman's rank correlation coefficient)

  • 当变量类型为次序/等级类型时,计算方式与皮尔逊相关系数一样
  • 当变量类型为数值型时,先排序转化数值为次序,再计算
  • 值域范围在-1~1之间,绝对值表示相关性强度,正负号表示相关性方向

适用范围:

  • 比皮尔逊相关系数宽松很多
  • 不需要考虑变量分布、样本量差异
  • 不适用于非次序的类别型变量

肯德尔(kendall)相关系数

肯德尔等级相关系数(Kendall rank correlation coefficient)

  • 一个用来测量两个随机变量(次序)相关性的统计值
  • 值域范围在-1~1之间,绝对值表示相关性强度,正负号表示相关性方向

定义:样本对的一致性

  • 假设第$i$组样本为$(X_i,Y_i)$,第$j$组样本为$(X_j,Y_j)$,二者构成一个样本对
  • 当$X_i<X_j$且$Y_i<Y_j$时,样本对被认为是一致的
  • 当$X_i>X_j$且$Y_i>Y_j$时,样本对被认为是一致的
  • 除了以上两种情况外,其他情况样本对被认为是不一致的
  • 如上图所示,对于样本$(X_1,Y_1)$来说,灰色区域内的样本是一致的

肯德尔相关系数的定义: $$\tau=\frac{一致的样本对数-不一致的样本对数}{总样本对数}=1-\frac{2(不一致的样本对数)}{{n \choose 2}}$$

适用范围:与斯皮尔曼相关系数要求一样

余弦相似度

余弦相似度(Cosine Similarity)

  • 计算两个向量的夹角余弦值来评估二者间的相似度
  • 取值范围为 [-1,1],-1 表示完全不相似,1 表示完全相似

余弦相似度数的定义: $$\mathrm{Similarity(A,B)}\ =\frac{\mathrm{A\cdot B}}{\vert\vert\mathrm{A}\vert\vert\times\vert\vert\mathrm{B}\vert\vert}\ =\frac{\displaystyle\sum_{\mathrm{i=1}}^{\mathrm{n}}\left(\mathrm{A_{i}\times B_{i}}\right)}{\sqrt{\displaystyle\sum_{\mathrm{i=1}}^{\mathrm{n}}\mathrm{A_{i}^{2}\times}\sqrt{\displaystyle\sum_{\mathrm{i=1}}^{\mathrm{n}}\mathrm{B_{i}^{2}}}}}$$

余弦相似度的局限性:

  • 用余弦相似度来比较句子间的语义相似性,可能会被词汇和语法相似性所干扰
  • 谨慎使用余弦相似度作为训练目标,因为可能导致模型的过拟合或欠拟合
  • 余弦相似度在处理高维向量、或包含空白或无意义的向量时更容易存在错误匹配

Jaccard 相似度

衡量两个集合之间相似性和差异性的重要指标

$$J(A,B)={\frac{|A\cap B|}{|A\cup B|}}$$

  • 分子为集合 A 与集合 B 的交集的大小
  • 分母为集合 A 与集合 B 的并集的大小

取值范围在 0~1,当值为 1 时表示两个集合完全相同

差异性检验

T检验

Y是连续型变量(正态齐次),X是二分类

F检验

Y是连续型变量(正态齐次),X是多分类

卡方检验

X和Y都是类别型变量

Tukey检验

Tukey检验,也称Tukey’s HSD (honestly significant difference)

  • 一种适用于单步多重(分组数大于2)比较的统计检验方法
  • 基于 studentized range 分布计算出q统计量,然后基于q进行两两间差异的假设检验
  • 该方法适用于分组间等方差等数目的场景;分组内数目不同时要用 Tukey-Kranmer 方法

距离度量

Jaccard 距离

衡量两个集合之间的差异性 $$D(A,B)=1-J(A,B)$$

其他相关性分析

偏相关性

在给定 Z 的情况下,计算 X 和 Y 的相关性

偏相关性 (Partial correlation) 的计算方式 $${{\rho(X,Y|\mathbf{Z})=\rho(e_{X},e_{Y})=\frac{\mathrm{Cov}(e_{X},e_{Y})}{\sqrt{\mathrm{Var}(e_{X})]}{\sqrt{\mathrm{Var}(e_{Y})}}}}}$$

  • $e_X$ 表示 X 对 Z 进行回归得到的残差:$e_{X}=X-(\beta_{X}^{T}\mathbf{Z}+\mathrm{intercept}_{X})$
  • $e_Y$ 表示 Y 对 Z 进行回归得到的残差:$e_{Y}=Y-(\beta_{Y}^{T}\mathbf{Z}+\mathrm{intercept}_{Y})$
  • $e_X$和 $e_Y$之间的皮尔逊相关系数,就是 X 和 Y 在控制 Z 后的偏相关性

偏相关性等于0,说明当且仅当X和Y在给定Z的条件下互相独立

Wilcoxon秩和检验

Wilcoxon秩和检验,有时也叫Mann-Whitney U检验

Y是连续型变量(非正态或非齐次),X是类别型

Box-Tidwell法

检验连续的自变量与因变量的logit转换值之间是否存在线性关系

HSIC

Hilbert-Schmidt Independence Criterion (HSIC)

利用核方法在高维空间中测量随机变量的相关性

往年同期文章