GoogLeNet_BN
本文字数: 12k 阅读时长 ≈ 23 分钟
论文Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift将批量归一化方法作用于卷积神经网络,通过校正每层输入数据的数据分布,从而达到更快的训练目的。在文章最后,添加批量归一化层到GoogLeNet
网络,得到了更好的检测效果
GoogLeNet
本文字数: 11k 阅读时长 ≈ 21 分钟
学习了论文Going deeper with convolutions
,尝试进一步推导其模型,并使用PyTorch
实现该网络
批量归一化:通过减轻内部协变量偏移来加速深度网络训练
本文字数: 6.2k 阅读时长 ≈ 11 分钟
学习论文Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift,里面提出了批量归一化(Batch Normalization
,简称BN
)方法,一方面能够大幅提高训练速度,另一方面也能够实现更好的模型精度
[数据集][PASCAL VOC]07+12
本文字数: 11k 阅读时长 ≈ 20 分钟
综合PASCAL VOC 2007
和2012
数据集,进行分类/检测任务。分两步完成:
- 下载
07 trainval、07 test、12 trainval
数据集,解析出分类/检测需要的数据 - 根据具体任务(分类或者检测)从中提取数据
相关实现:zjykzj/vocdev
[数据集]PASCAL VOC 2012
本文字数: 3.3k 阅读时长 ≈ 6 分钟
相比于之前的挑战赛,PASCAL VOC 2012增加了更多的训练和测试图像,同时,这也是最后一届挑战赛。其关于PASCAL VOC
以及之前挑战赛的内容参考:
相关实现:zjykzj/vocdev
[Going deeper with convolutions]进一步深入卷积操作
本文字数: 4.6k 阅读时长 ≈ 8 分钟
文章Going deeper with convolutions提出了一种新的卷积架构 - Inception
,基于此实现的CNN
架构GoogLeNet
能够得到更好的分类和检测效果
[空间金字塔池化]SPP-net
本文字数: 4.5k 阅读时长 ≈ 8 分钟
文章Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition提出空间金字塔池化(spatial pyramid pooling
)的概念,避免了固定大小的图像输入,能够有效提高子窗口的识别精度;同时通过共用特征图的方式,极大的提高了检测速度
[R-CNN]边界框回归
本文字数: 1.1k 阅读时长 ≈ 2 分钟
在R-CNN
算法中,使用SVM
分类器对候选建议进行分类后,使用对应类别的边界框回归器(bounding-box regression
)预测其坐标偏移值,这一操作能够进一步提高检测精度
感受野
本文字数: 2.3k 阅读时长 ≈ 4 分钟
什么是感受野?
The receptive field is defined as the region in the input space that a particular CNN’s feature is looking at (i.e. be affected by). —— Dang Ha The Hien 在卷积神经网络中,感受野的定义是卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像上映射的区域大小。 ——博客园 在机器视觉领域的深度神经网络中有一个概念叫做感受野,用来表示网络内部的不同位置的神经元对原图像的感受范围的大小。 ——蓝荣祎
卷积层滤波器的神经元和前一层输出数据体的局部神经元一一连接,其空间尺寸称为感受野(receptive field
)大小
- 局部感受野大小:针对上一层输出数据体的空间尺寸
- 理论感受野大小:针对原始输入图像的局部空间尺寸