大海

SIMPLE THE COMPLEX

正态分布(normal distribution),也称为常态分布,高斯分布(gaussian distribution),是连续随机变量概率分布的一种,自然界中大量现象符合正态分布,比如身高/体重/成绩/收入/寿命

阅读全文 »

在多变量回归或分类问题上,需要保证这些变量的取值范围具有同一尺度

原因一:确保大尺度变量不会左右分类器的分类结果。如果分类器利用结果变量的距离来计算损失函数,那么小尺度变量的变化会被忽略,大尺度变量会决定分类效果
原因二:帮助梯度下降算法收敛更快。参考机器学习–特征缩放/均值归一化,从损失函数等值线图可知,变量在同一尺度下能够更快的通过梯度下降算法收敛

常用的特征缩放方法包括标准化(或称为规范化)和区间缩放

阅读全文 »

进行图像处理经常需要使用图像数据集,常用的包括cifar-10/mnist等等

很多时候也需要自己进行图像的采集,如何有效的保存和管理这些图像,以及训练完成后得到的数据?参考DATA LOADING AND PROCESSING TUTORIAL进行图像数据集的制作

阅读全文 »

cifar-10数据集保存10类,每类6000张图像。其中50000张训练图像和10000张测试图像

训练图像保存在5个文件中,每个文件有10000张图像,测试图像保存在一个文件,训练和测试图像都以随机顺序保存

官网:The CIFAR-10 dataset

cifar-10提供了使用不同语言生成的压缩包,包括python/matlab/c

阅读全文 »