导数、微分和梯度

最近推导神经网络的前向传播和反向传播过程,经常会遇到有关导数、微分和梯度的内容,对它们的概念进行一次小结

  • 导数
  • 微分
  • 偏导数
  • 全微分
  • 方向导数
  • 梯度

导数

设函数在点处的某个邻域内有定义,当自变量处取得增量(点仍在该邻域内)时,相应地,函数取得增量,如果极限

存在,则称函数在点处可导,并称这个极限值为函数在点处的导数,记为

$$
{y}’|{x=x{0}},\ f’(x_{0}),\ \frac {dy}{dx}|{x=x{0}}\ 或\ \frac {df(x)}{dx}|{x=x{0}}
$$

函数在点处可导有时也说成在点具有导数或导数存在

如果极限不存在,则说在点处不可导

不可导情形

  1. 时,没有稳定的变化趋势
  2. ,此时也说导数为无穷大

左导数和右导数

设函数在点的某个右邻域内有定义,如果极限

存在,则称此极限为函数在点处的右导数,记作$f’{+}(x{0})

设函数在点的某个右邻域内有定义,如果极限

存在,则称此极限为函数在点处的左导数,记作$f’{-}(x{0})$

函数在点处可导的充分必要条件是左导数$f’{-}(x{0})f’{+}(x{0})$都存在且相等

可导性和连续性

函数连续只是函数可导的必要条件,但不是充分条件,所以如果函数在某点不连续,则函数在该点必不可导

所以可导必连续,连续不一定可导,不连续一定不可导

四则运算法则

微分

设函数在某个区间内有定义,在这个区间内,如果函数的增量可表示为

其中是与无关的常数,是比高阶的无穷小,则称函数在点可微,称为函数在点相应于自变量增量的微分,记作$dy|{x=x{0}}df(x)|{x=x{0}}$,即

$$
dy|{x=x{0}}=A\Delta x
$$

可微与可导

函数在点处可微的充要条件是在点处可导,且

$$
dy|{x=x{0}}=f’(x_{0})\Delta x
$$

所以可微必可导,可导必可微,二者等价

偏导数

设函数在点的某一邻域内有定义,当固定在,而处有增量时,相应地函数有增量

如果

存在,则称此极限为函数在点处对的偏导数,记为

$$
\frac{\partial z}{\partial x}|{x=x{0},y=y_{0}}, \
\frac{\partial f}{\partial x}|{x=x{0},y=y_{0}}, \
z_{x}|{x=x{0},y=y_{0}}, \ 或\ f_{x}(x_{0},y_{0})
$$

类似地,函数在点处对的偏导数定义为

记为

$$
\frac{\partial z}{\partial y}|{x=x{0},y=y_{0}}, \
\frac{\partial f}{\partial y}|{x=x{0},y=y_{0}}, \
z_{y}|{x=x{0},y=y_{0}}, \ 或\ f_{y}(x_{0},y_{0})
$$

由偏导数的定义可知,求偏导数本质上是求一元函数的导数,函数对某一个变量求偏导数时,只需要把其余的自变量看成常数,因此一元函数微分法的求导法则全部适用于多元函数的偏导数

全微分

设二元函数在点的某领域内有定义且偏导数存在,当变量分别有增量时,由一元函数增量与微分的关系,得

其中

分别成为二元函数对和对偏增量,而

分别称为二元函数对和对偏微分,将

称为函数在点处的全增量

若函数在点处的全增量可以表示为

其中,不依赖于,只与有关,是当时比高阶的无穷小量,则称函数在点可微,而称为函数在点处的全微分,记作

全微分、偏导数与连续性

如果函数在点处可微,则函数在该点连续

所以连续是可微的必要条件,可微必连续

如果函数在点处的两个偏导数存在且连续,则函数在该点可微

所以偏导数存在且连续是可微的充分条件,可微必存在偏导数

偏导数和连续性没有关系

方向导数

设函数的某一领域内有定义,自点引射线,在上任取一点

沿趋近于时,即当

时,极限

存在,则称此极限为函数在点处沿方向方向导数,记作$\frac{\partial f}{\partial l}|{x=x{0},y=y_{0}}$,即

$$
\frac{\partial f}{\partial l}|{x=x{0},y=y_{0}}=
\lim_{\rho \to o^{+}}\frac {f(x_{0}+\Delta x,y_{0}+\Delta y)-f(x_{0},y_{0})}{\rho}
$$

方向导数和偏导数

如果函数在点的偏导数存在,则偏导数就是函数沿坐标轴正向的方向导数

梯度

设函数在平面区域内具有一阶连续偏导数,则对于每一点都可确定一个向量

该向量称为函数在点的梯度,记作,即

梯度和方向导数

是与方向同方向的单位向量,则由方向导数的计算公式得

$$
\frac{\partial f}{\partial l}|{x=x{0},y=y_{0}}=
f_{x}(x_{0},y_{0})\cos \alpha+f_{y}(x_{0},y_{0})\cos \beta=
{f_{x}(x_{0},y_{0}),f_{y}(x_{0},y_{0})}\cdot { \cos \alpha, \cos \beta }\=
grad f(x_{0},y_{0})\cdot e_{l}=
|grad f(x_{0},y_{0})|\cos \theta
$$

,即方向与梯度的方向相同时,方向导数$\frac{\partial f}{\partial l}|{x=x{0},y=y_{0}}=f(x,y)grad f(x_{0},y_{0})|grad f(x_{0},y_{0})|$

所以梯度向量的方向是函数在该点的方向导数取得最大值的方向,梯度向量的模就是方向导数的最大值

小结

  1. 一元还是多元

    导数和微分是一元函数定义

    偏导数、全微分、方向导数和梯度是多元函数定义

  2. 导数、微分和连续性关系

    导数和微分等价,可导必可微,可微必可导

    连续性是导数的必要关系,可导必连续,不连续必不可导

  3. 偏导数、全微分和连续性关系

    偏导数、全微分和连续性没有等价关系

    连续性和偏导数存在是可微的充分条件

    连续性是可微的必要条件,可微必连续

    偏导数是可微的必要条件,可微必可偏导

    连续性和偏导数没有关系

  4. 全微分、方向导数和梯度

    全微分存在是方向导数存在的充分条件,全微分存在则方向导数存在

    梯度方向是方向导数取得最大变化的方向,梯度模就是最大变化值

相关阅读