大海

如何找到最优权重衰减值

发表于 2020-05-03 更新于 2021-04-14 分类于深度学习/deeplearning

本文字数： 35k 阅读时长 ≈ 1:04

论文A DISCIPLINED APPROACH TO NEURAL NETWORK HYPER-PARAMETERS: PART 1 – LEARNING RATE, BATCH SIZE, MOMENTUM, AND WEIGHT DECAY给出了关于学习率、批量大小、动量和权重衰减的训练方法。下面学习如何找到最优权重衰减值

阅读全文 »

[LR Scheduler]如何找到最优学习率

发表于 2020-05-01 更新于 2021-04-14 分类于深度学习/deeplearning

本文字数： 6k 阅读时长 ≈ 11 分钟

如何寻找最优学习率?

根据准确度寻找最优学习率

论文Cyclical Learning Rates for Training Neural Networks提出了周期学习率调度方法，让学习率在合理的边界值之间循环变化（不再单调递减）

阅读全文 »

[LR Scheduler]warmup

发表于 2020-05-01 更新于 2021-04-14 分类于深度学习/deeplearning

本文字数： 5.1k 阅读时长 ≈ 9 分钟

论文Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour使用warmup进行学习率的调整，能够帮助模型的训练

阅读全文 »

[LR Scheduler]余弦退火

发表于 2020-05-01 更新于 2021-04-14 分类于深度学习/deeplearning

本文字数： 3.9k 阅读时长 ≈ 7 分钟

余弦退火（Cosine Annealing）方法来自于论文SGDR: STOCHASTIC GRADIENT DESCENT WITH WARM RESTARTS

阅读全文 »

标签平滑正则化

发表于 2020-04-30 更新于 2021-04-12 分类于深度学习/deeplearning

本文字数： 2.4k 阅读时长 ≈ 4 分钟

定义

在分类任务中，通常使用交叉熵损失进行梯度训练。交叉熵损失的作用就是最大化正确标签的对数似然概率。其损失值计算如下：

\[ H(y, p) =-1\times \sum_{k=1}^{K} y_{k}log(p_{k}) \]

当$y_{k}$属于正确类时$=1$，否则$=0$。这会导致两个问题：

它可能会导致过度拟合：如果模型学会为每个训练示例分配全部概率给真值标签，它就不能保证泛化效果
它鼓励最大logit和所有其他logit之间的差异变大，这与有界梯度$\frac {∂l}{∂z_{k}}$相结合，降低了模型的迁移能力

标签平滑正则化的目的是防止最大逻辑变得比所有其他逻辑大得多。其实现方式：在交叉熵损失中加入一个独立于训练样本的基于标签的分布$u(k)$

\[ y(k) = (1 - \epsilon)δ_{k，y} + \epsilon u(k) \]

$k$表示标签数
$\epsilon$表示平滑参数
$δ_{k，y} $表示标签为$y$的训练样本

从实现上看，LSR鼓励神经网络选择正确的类，并且正确类和其余错误类之间的差别是一致的。这样能够鼓励梯度向正确类靠近的同时远离错误类

在论文中将$u(k)$设置为均匀分布$u(k) = 1/K$，所以

\[ y(k) = (1 - \epsilon)δ_{k，y} + \frac {\epsilon}{K} \]

$\epsilon可设置为0.1$

阅读全文 »

模型可视化工具和库

发表于 2020-04-28 更新于 2021-04-06 分类于工具/tool

本文字数： 344 阅读时长 ≈ 1 分钟

小结模型可视化工具和库

阅读全文 »

Densely Connected Convolutional Networks

发表于 2020-04-27 更新于 2021-07-09 分类于目标分类/object classification

本文字数： 3.9k 阅读时长 ≈ 7 分钟

原文地址：Densely Connected Convolutional Networks

阅读全文 »

SQUEEZENET

发表于 2020-04-24 更新于 2021-07-09 分类于目标分类/object classification

本文字数： 3.6k 阅读时长 ≈ 7 分钟

原文地址：SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size

阅读全文 »

[目标检测][PASCAL VOC]mAP

发表于 2020-04-20 更新于 2023-07-23 分类于深度学习/deeplearning

本文字数： 1.7k 阅读时长 ≈ 3 分钟

对于目标检测算法而言，mAP(mean average precision)是最常用的评价指标了。关于如何计算mAP，不同的数据集提供了不同的实现方式，其中最常用的就是PASCAL VOC数据集的mAP计算，网上有很多相关的资料，看了很多还是感觉不理解，所以打算好好记录一下

You Only Look Once: Unified, Real-Time Object Detection

发表于 2020-04-16 更新于 2024-06-01 分类于目标检测/object-detect

本文字数： 5.3k 阅读时长 ≈ 10 分钟

原文地址：You Only Look Once: Unified, Real-Time Object Detection

复现地址：zjykzj/YOLOv1

阅读全文 »