线性代数基础

1 Kronecker 乘积

两个矩阵的 Kronecker 乘积 kron(X,Y)X 的元素与 Y 的元素的所有可能乘积构成的较大矩阵。如果 X 为 m×n 且 Y 为 p×q,则 kron(X,Y) 为 mp×nq。元素以特定方式排列,呈现 X 的每个元素分别与整个矩阵 Y 相乘的结果。

X = [1   2 3   4];
I = eye(2,2);
kron(X,I)
% result
ans =

     1     0     2     0
     0     1     0     2
     3     0     4     0
     0     3     0     4

2 海森矩阵

海森(Hessian)矩阵,多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率

对于关于向量$x$的函数$f(x)$,可以根据各分量构建二阶偏导矩阵$H(f)$,即: $$H(f)=\begin{bmatrix} \frac{\partial^2{f}}{\partial{x^{(0)}}\partial{x^{(0)}}} & \frac{\partial^2{f}}{\partial{x^{(0)}}\partial{x^{(1)}}} & \cdots & \frac{\partial^2{f}}{\partial{x^{(0)}}\partial{x^{(n)}}} \\ \frac{\partial^2{f}}{\partial{x^{(1)}}\partial{x^{(0)}}} & \frac{\partial^2{f}}{\partial{x^{(1)}}\partial{x^{(1)}}} & \cdots & \frac{\partial^2{f}}{\partial{x^{(1)}}\partial{x^{(n)}}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2{f}}{\partial{x^{(n)}}\partial{x^{(0)}}} & \frac{\partial^2{f}}{\partial{x^{(n)}}\partial{x^{(1)}}} & \cdots & \frac{\partial^2{f}}{\partial{x^{(n)}}\partial{x^{(n)}}} \\ \end{bmatrix}$$ 海森矩阵的理解:

  • 作为二阶偏导构成的方阵$H$,每一行/列都对应着参数$w$在一个维度上的偏导
  • 方阵$H$中的第$i$行第$j$列元素$h_{ij}$,表示函数关于该参数在第$i$轴和第$j$轴的二阶偏导
  • 方阵对角线上的元素值描述了参数值在某一维度的变化,对函数关于该参数对应维度的梯度的影响
  • 方阵非对角线上的元素值描述了参数值在某一维度的变化,对函数关于该参数其他维度的梯度的影响
  • 方阵非对角线上的元素值对应着函数关于该梯度在不同维度上的”纠缠(twist)“,如果不同维度上的梯度不存在这种相关性,则对应非对角线的元素值为0

在统计学中,Hessian 矩阵的期望值称为 Fisher 信息矩阵 $I(\theta)$;而 Fisher 信息矩阵的逆 $I(\theta)^{-1}$ 被称为渐近协方差矩阵,它描述了参数估计的方差和协方差: $$ I(\theta)^{-1}=Cov(\theta) $$ 因此,Hessian 逆矩阵的对角线元素直接表示了参数估计的方差:

  • 较小的对角线元素:表示方差较小,即该参数估计更精确,参数更重要
  • 较大的对角线元素:表示方差较大,即该参数估计不太精确,参数不太重要

#Kronecker #线性代数

往年同期文章