1 Kronecker 乘积
两个矩阵的 Kronecker 乘积 kron(X,Y)
为 X
的元素与 Y
的元素的所有可能乘积构成的较大矩阵。如果 X
为 m×n 且 Y
为 p×q,则 kron(X,Y)
为 mp×nq。元素以特定方式排列,呈现 X
的每个元素分别与整个矩阵 Y
相乘的结果。
X = [1 2; 3 4];
I = eye(2,2);
kron(X,I)
% result
ans =
1 0 2 0
0 1 0 2
3 0 4 0
0 3 0 4
2 海森矩阵
海森(Hessian)矩阵,多元函数的二阶偏导数构成的方阵,描述了函数的局部曲率
对于关于向量$x$的函数$f(x)$,可以根据各分量构建二阶偏导矩阵$H(f)$,即: $$H(f)=\begin{bmatrix} \frac{\partial^2{f}}{\partial{x^{(0)}}\partial{x^{(0)}}} & \frac{\partial^2{f}}{\partial{x^{(0)}}\partial{x^{(1)}}} & \cdots & \frac{\partial^2{f}}{\partial{x^{(0)}}\partial{x^{(n)}}} \\ \frac{\partial^2{f}}{\partial{x^{(1)}}\partial{x^{(0)}}} & \frac{\partial^2{f}}{\partial{x^{(1)}}\partial{x^{(1)}}} & \cdots & \frac{\partial^2{f}}{\partial{x^{(1)}}\partial{x^{(n)}}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial^2{f}}{\partial{x^{(n)}}\partial{x^{(0)}}} & \frac{\partial^2{f}}{\partial{x^{(n)}}\partial{x^{(1)}}} & \cdots & \frac{\partial^2{f}}{\partial{x^{(n)}}\partial{x^{(n)}}} \\ \end{bmatrix}$$ 海森矩阵的理解:
- 作为二阶偏导构成的方阵$H$,每一行/列都对应着参数$w$在一个维度上的偏导
- 方阵$H$中的第$i$行第$j$列元素$h_{ij}$,表示函数关于该参数在第$i$轴和第$j$轴的二阶偏导
- 方阵对角线上的元素值描述了参数值在某一维度的变化,对函数关于该参数对应维度的梯度的影响
- 方阵非对角线上的元素值描述了参数值在某一维度的变化,对函数关于该参数其他维度的梯度的影响
- 方阵非对角线上的元素值对应着函数关于该梯度在不同维度上的”纠缠(twist)“,如果不同维度上的梯度不存在这种相关性,则对应非对角线的元素值为0
在统计学中,Hessian 矩阵的期望值称为 Fisher 信息矩阵 $I(\theta)$;而 Fisher 信息矩阵的逆 $I(\theta)^{-1}$ 被称为渐近协方差矩阵,它描述了参数估计的方差和协方差: $$ I(\theta)^{-1}=Cov(\theta) $$ 因此,Hessian 逆矩阵的对角线元素直接表示了参数估计的方差:
- 较小的对角线元素:表示方差较小,即该参数估计更精确,参数更重要
- 较大的对角线元素:表示方差较大,即该参数估计不太精确,参数不太重要