实值标量函数一阶微分和Jacobian矩阵辨识

神经网络的反向传播可以通过对损失函数进行微分得到各层权重矩阵的梯度

其中对损失函数求梯度是实值标量函数一阶微分,其中关键的部分是得到Jacobian矩阵,从而转置获取梯度矩阵

一阶实矩阵微分

矩阵微分用符号表示,定义为

实矩阵微分具有两个基本性质

  1. 转置。矩阵转置的微分等于矩阵微分的转置,既有
  2. 线性。

常用计算公式

  1. 常数矩阵的微分矩阵为零矩阵,即
  2. 常数与矩阵的乘积的微分矩阵
  3. 矩阵转置的微分矩阵等于原矩阵的微分矩阵的转置,即
  4. 两个矩阵函数的和(差)的微分矩阵为
  5. 常数矩阵与矩阵乘积的微分矩阵为
  6. 矩阵函数乘积的微分矩阵为
  7. 矩阵的迹的矩阵微分等于矩阵微分的迹,即

    7.1 从而可推导出矩阵函数的迹的矩阵微分为
  8. 行列式的微分为

    8.1 从而可推导出矩阵函数的行列式的微分为
  9. 矩阵函数的Kronecker积的微分矩阵为
  10. 矩阵函数的Hadamard积的微分矩阵为
  11. 向量化函数的微分矩阵等于的微分矩阵的向量化函数,即
  12. 矩阵对数的微分矩阵为

    12.1 从而可推导出矩阵函数的对数的微分矩阵为
  13. 逆矩阵的微分矩阵为

标量函数的Jacobian矩阵辨识

多变量函数在点可微分的充分条件是偏导数均存在,且连续。全微分公式如下:

若矩阵的标量函数矩阵点可微分,则矩阵可直接通过以下公式辨识:

要点如下:

  1. 标量函数总可以写成迹函数的形式,因为
  2. 无论出现在迹函数内的任何位置,总可以通过迹函数的性质,将写到迹函数的最右端,从而得到迹函数微分矩阵的规范形式
  3. 对于,总可以通过迹函数的性质,写成迹函数微分矩阵的规范形式

计算标量函数是正方常数矩阵,求梯度矩阵

所以矩阵为,梯度矩阵为

计算的梯度矩阵

所以矩阵为,梯度矩阵为

常用的迹函数的微分矩阵及其矩阵参考《矩阵分析与应用》第3.2章表3.2.1

相关阅读

  • 《矩阵分析与应用》第三章 3.2 一阶实矩阵微分与Jacobian矩阵辨识