最小角回归

在统计学中,最小角回归(LARS)是一种将线性回归模型拟合到高维数据的算法

用 $T(\hat{\boldsymbol{\beta}})$ 表示 $\hat{\boldsymbol{\beta}}$ 的绝对值范数 $$T(\hat{\boldsymbol{\beta}})=\sum_{j=1}^m|\hat{\beta_j}|\tag{7}$$ 则Lasso即为下面的约束优化问题: $$\min S(\hat{\boldsymbol{\beta}}) \quad \text{s.t.} \quad T(\hat{\boldsymbol{\beta}}) \le t\tag{8}$$ Lasso也可以作为一种收缩方法用来防止过拟合,即Lasso岭回归,等价于下面的优化问题: $$\min S(\hat{\boldsymbol{\beta}})+\lambda T(\hat{\boldsymbol{\beta}})\tag{9}$$ 只不过在岭回归中,使用的是$L_2$范数。这里的$\lambda$与$t$具有一一对应关系。

LARS也是不断迭代运行。不过LARS只需要 $m$ 步迭代就可以完成,$m$ 是变量的个数。

LARS算法的过程大致如下:

  1. 首先,像传统的前向选择一样,将所有系数 $\hat{\beta_j}$ 置为0,然后选择一个与响应值相关度最大的变量,比方说$x_{j1}$。
  2. 然后,在这个方向上前进尽可能大的一步(增大/小系数$\hat{\beta_{j1}}$),直到另一个变量,比如$x_{j2}$,与目前的残差有同样大的相关度。
  3. 这时候,LARS算法和前向选择分道扬镳。不向前向选择中那样继续沿 $x_{j1}$ 方向前进,算法选择 $x_{j1}$ 与 $x_{j2}$ 的角平分线方向前进(即同时等量增大/小$\hat{\beta_{j1}}$和$\hat{\beta_{j2}}$)
  4. 直到第三个变量 $x_{j3}$ 达到相关度的要求,进入到这个”最相关”的集合中,然后再沿这三个变量的角平分线方向前进(同时等量增大/小$\hat{\beta_{j1}}$、$\hat{\beta_{j2}}$ 和 $\hat{\beta_{j2}}$),依次类推。

LARS算法优点:开销小

#最小角回归法 #LARS

往年同期文章