特征选择

1 常见特征选择方法

特征评价指标:信息准则类指标

常用特征选择方法:

  • 基于正则惩罚的特征选择(比如Lasso 回归
  • 删除方差特别低的特征(sklearn.feature_selection.VarianceThreshold
  • 删除高相关性的特征(比如计算皮尔逊相关系数矩阵)
  • 单变量特征选择(互信息、方差分析、卡方检验)
  • 基于评价方法的贪婪特征选择(前向/后向搜索)
  • 基于特征重要性的选择(集成树模型、SHAP分析)

2 Relief 特征选择法

Relief(relative features)是一种处理二分类问题的常用特征选择方法,它假设特征子集的重要性由每个子集中每个子集对应的特征值之和来确定。计算公式如下: $$\delta^{j}=\sum_{i}[-\mathrm{diff}\left(x_{i}^{j},x_{i,mh}^{j}\right)^{2}+\mathrm{diff}\left(x_{i}^{j},x_{i,nm}^{j}\right)^{2}]$$ 其中$x^j_i$是样本$x_i$的特征$j$,$x_{i,mh}$是与$x_i$同类的最近邻样本,$x_{i,nm}$是与$x_i$不同类的最近邻样本;$\delta^{j}$评估的是特征$j$的重要性:同类间特征越接近,不同类间特征越远,对分类越重要

如果特征是离散的,则特征值相等时 diff 才为 0,否则均为 1 如果特征是连续的,那么 diff 就是特征值距离(需要归一化),值越大越好

Relief 算法复杂度随着样本的抽样次数m和原始特征个数N的增加而线性增加

ReliefF 算法:可以从 R 类不同样本中抽取 K 个近邻样本,适用于多分类问题

往年同期文章