[LR Scheduler]学习率退火
在标准随机梯度下降过程中,每次更新使用固定学习率(learning rate
),迭代一定次数后损失值不再下降,一种解释是因为权重在最优点周围打转,如果能够在迭代过程中减小学习率,就能够更加接近最优点,实现更高的检测精度
学习率退火(annealing the learning rate
)属于优化策略的一种,有3
种方式实现学习率随时间下降
- 随步数衰减(
step decay
) - 指数衰减(
exponential decay
) 1/t
衰减(1/t decay
)
下面介绍这3
种学习率退火实现,然后用numpy
编程进行验证