概率论基础
参考PCA数学原理,小结PCA
求解过程中相关的概率论基础
Nesterov
加速梯度(Nesterov's Accelerated Gradient
,简称NAG
)是梯度下降的一种优化方法,其收敛速度比动量更新方法更快,收敛曲线更加稳定
动量(momentum
)更新是梯度下降的一种优化方法,它能够加快损失函数收敛速度(converge rate
)
在标准随机梯度下降过程中,每次更新使用固定学习率(learning rate
),迭代一定次数后损失值不再下降,一种解释是因为权重在最优点周围打转,如果能够在迭代过程中减小学习率,就能够更加接近最优点,实现更高的检测精度
学习率退火(annealing the learning rate
)属于优化策略的一种,有3
种方式实现学习率随时间下降
step decay
)exponential decay
)1/t
衰减(1/t decay
)下面介绍这3
种学习率退火实现,然后用numpy
编程进行验证
前面实现了卷积层和全连接层的相互转换,下面实现池化层和全连接层的相互转换
之前实现了一个图像和行向量相互转换的函数,逐图像进行局部连接矩阵的转换
其实现原理较下标计算更易理解,通过循环,逐个图像对局部连接矩阵进行切片操作,得到矩阵后拉平为向量,以行向量方式进行保存
反向转换图像可以设置标志位isstinct
,是否返回叠加图像还是原图,其实现原理是在指定位置赋值过程中是执行累加还是执行覆盖
前面实现了图像转列向量,在之前推导过程中使用的是行向量,所以修改im2col.py
,实现im2row
的功能
卷积核大小为\(2\times 2\),步长为1
,零填充为0
2
维图像大小为\(3\times 3\),3维图像大小为\(2\times 3\times 3\),4维图像大小为\(2\times 2\times 3\times 3\)
所以输出数据体的空间尺寸为\(2\times 2\),深度为2
,数量为2
im2col
表示image to column
,将图像转换成列向量
卷积操作步骤:首先将卷积核映射到x_padded
左上角,然后沿着行方向操作,每次滑动stride
距离;到达最右端后,将卷积核往列方向滑动stride
距离,再实现从左到右的滑动