数据集汇总
汇总本站涵盖的主流数据集说明,覆盖图像分类、目标检测、实例分割、OCR 及大模型预训练等核心任务。
LAION数据集
- 官网
- 说明
- LAION5B
- 规模:约 58.5 亿(5.85B) 图像-文本对,是目前全球最大的公开多模态图文数据集。
- 语言:主要为英文,但也包含其他语言内容(后续有翻译子集如 Laion Translated)。
- 构建方式:
- 源自 Common Crawl 网页快照中的
<img>标签及其附近文本(alt、标题、周围段落等)。 - 使用 OpenAI CLIP ViT-L/14 模型 对每对图像和文本计算余弦相似度,仅保留相似度 ≥ 0.28 的样本(部分子集使用更严格阈值)。
- 源自 Common Crawl 网页快照中的
- 元信息:
- 提供 NSFW(不适宜工作场所)检测分数
- 水印检测分数
- 美学评分(Aesthetic Score)(基于在 CLIP 特征上训练的回归模型)
- 部分子集提供分辨率、宽高比、语言识别等附加字段
- 子集示例:
- LAION-2B-en:LAION-5B 中识别为英文的约 23.2 亿 图文对。
- LAION-5B High-Res:分辨率 ≥1024×1024 的 1.7 亿 高清图像子集。
- LAION-Aesthetics:美学评分较高的子集,常用于文生图模型训练。
- 用途:大规模多模态预训练(如 OpenCLIP)、零样本迁移、图文检索、生成模型(如 Stable Diffusion)等。
- LAION2B
- 规模:约 23.2 亿(2.32B) 图像-文本对。
- 来源:LAION-5B 的英文子集(通过语言检测模型筛选出的英文图文对)。
- 筛选方式:
- 同样基于 CLIP 过滤(余弦相似度 ≥ 0.28)。
- 保留原始 URL、文本、图像哈希(pHash)等信息,便于去重与溯源。
- 特点:
- 是 OpenCLIP 大模型(如 ViT-H/14、ViT-g/14)训练的主要数据源。
- 相比 LAION-5B 更“干净”(限定语言),适合需要高质量英文监督信号的任务。
- 用途:训练高性能开源 CLIP 模型、跨模态对齐研究、缩放定律验证等。
- LAION-400M
- 规模:约 4.13 亿 图像-文本对(常简称为 400M)。
- 语言:全部为英文。
- 构建与筛选:
- 同样源自 Common Crawl。
- 使用 OpenAI CLIP 模型 计算图文相似度,仅保留余弦相似度 ≥ 0.3 的样本(比 LAION-5B 更严格)。
- 删除重复项(基于图像 pHash 去重)。
- 图像分辨率分布(近似统计):
- 至少一维 ≥1024:约 2600 万
- 两维均 ≥1024:约 960 万
- 两维均 ≥256:约 2.11 亿(占主体)
- 历史意义:
- 是首个被广泛采用的大规模开源 CLIP 训练数据集。
- 被用于早期 OpenCLIP 模型训练、Stable Diffusion v1 的预训练阶段等。
- 用途:零样本图像分类、跨模态检索、教学与研究基准等。
- LAION5B
- 参考
CCPD
- 官网
- 说明
- 总计超 30 万张中国城市停车场场景下的车牌图像,每图仅含一个车牌。
- 包含多个子集:Base(基础)、DB(密集)、Blur(模糊)、FN(远近)、Rotate、Tilt、Challenge、Green(新能源八位车牌)。
- 车牌标注以文件名形式嵌入,包含边界框、四顶点坐标、省份+字母+数字共 7 位字符(或 8 位)。
- 领域:车牌检测(License Plate Detection)、车牌识别(OCR)、端到端车牌理解。
- 评估指标:IoU > 0.7 判定检测正确,字符全对判定识别正确。
- 参考
WIDERFACE
- 官网
- 说明
- 包含 32,203 张图像,标注 393,703 个人脸实例。
- 图像选自 WIDER 数据集,按 61 个事件类别组织,具有极高的尺度、姿态、遮挡多样性。
- 划分:40% 训练 / 10% 验证 / 50% 测试(测试集不公开标注,需提交结果评估)。
- 采用 PASCAL VOC 风格的 AP 评估,但按 Easy / Medium / Hard 三档难度分别报告。
- 领域:人脸检测、鲁棒目标检测、小目标检测。
- 参考
COCO
- 官网
- 说明
- COCO 2017(最常用版本)
- COCO 2017 是目前社区最广泛采用的版本(取代了早期的 2014/2015),其图像集合与 COCO 2014 相同,但重新划分了训练集、验证集和测试集。
- 目标检测 / 实例分割数据构成(
instances任务)
- 总图像数:约 163,957 张(训练 + 验证 + 测试)
- 总标注实例数:约 896,000 个(仅含
train2017+val2017的公开标注)
- 类别说明(目标检测 / 实例分割)
- 类别数量:80 个 “thing” 类别(即可数、有明确边界的物体实例)
- 类别来源:从原始 91 个语义类别中筛选出适合实例级标注的 80 类(排除如 “door”、“mirror” 等难以精确定义实例边界或常被遮挡的类别)
- 类别示例:
- 人(person)
- 车辆(car, truck, bus, bicycle, motorcycle)
- 动物(dog, cat, horse, cow, bird)
- 日用品(bottle, cup, chair, table, sofa, tv)
- 厨房用具(knife, spoon, fork, bowl)
- 运动器材(sports ball, kite, skateboard)
- 超类(supercategory):80 类被组织为 12 个超类,如
person、vehicle、animal、furniture、kitchen等,便于层次化分析。 - 注意:COCO 检测/分割任务不包含另外 11 个 “stuff” 类别(如 sky, grass, road, wall 等无明确实例边界的区域)。这些属于 Stuff Segmentation 或 Panoptic Segmentation 任务。
- 评估标准特点
- 使用 10 个 IoU 阈值(0.50, 0.55, …, 0.95)计算 AP,并取平均(即 mAP@[.5:.95])。
- 同时报告按目标尺度划分的 AP:small(面积 < 32²)、**medium**(32² ~ 96²)、**large**(> 96²)。
- 比 PASCAL VOC(仅 IoU=0.5)更严格,更能反映模型在高定位精度下的性能。
- COCO 2017(最常用版本)
- 参考
| 集合 | 图像数量 | 标注实例总数 | 小目标 (area < 1024) | 中目标 (1024 ≤ area ≤ 9216) | 大目标 (area > 9216) | 说明 |
|---|---|---|---|---|---|---|
train2017 |
118,287 | ≈860,000 | ≈352,000 (41.0%) | ≈293,000 (34.1%) | ≈215,000 (24.9%) | 用于模型训练 |
val2017 |
5,000 | ≈36,000 | ≈14,800 (41.1%) | ≈12,300 (34.2%) | ≈8,900 (24.7%) | 用于验证调参(公开标注) |
test2017 |
40,670 | — | — | — | — | 用于官方测试(标注不公开,需提交至 COCO 评测服务器) |
注意:
- 百分比基于各集合的总实例数计算,与 COCO 论文及官方统计数据一致(小目标占比最高,体现其对密集、小物体场景的强调)。
- 具体数值因不同解析方式可能略有浮动(±0.5%),但比例稳定。
- 面积(area)指标注 mask 的像素数量(对于 bounding box,则为 w × h)。
Pascal VOC
- 官网
- 说明
- PASCAL VOC 2007:9,963 张图像(5,011 训练+验证 / 4,952 测试),20 个目标类别,共约 24,640 个标注实例。
- PASCAL VOC 2012:11,540 张图像(训练+验证),同样 20 类,标注更密集,共约 27,450 个实例。
- 类别涵盖四大类:人(person)、动物(bird/cat/dog 等)、交通工具(car/bicycle/boat 等)、室内物品(bottle/chair/sofa 等)。
- 提供目标检测、语义分割、人体关键点(仅 2010)等多任务标注。
- 评估采用 VOC-style mAP(07 版本为 11 点插值,12 版本为全 PR 曲线下面积)。
- 领域:通用目标检测、实例分割、模型性能基准测试。
- 参考
Oxford5k/Paris6k
- 官网
- 说明
- Oxford5k:5,062 张牛津大学周边建筑图像,11 个地标,每地标 5 张查询图(共 55 张)。
- Paris6k:6,412 张巴黎著名建筑图像,12 个地标,同样提供查询图。
- 图像尺寸约为 1024×768,来自 Flickr,具有真实场景中的视角、光照、遮挡变化。
- 标注分为四类:Good / OK(视为正样本)、Junk(负样本)、Bad(忽略)。
- 评估指标为 mAP(mean Average Precision),常用于图像检索、地标识别任务。
- 后续扩展版 Revisited Oxford/Paris 增加了 15 张更具挑战性的查询图,并引入 1M 干扰图像构建大规模检索基准。
- 领域:基于内容的图像检索(CBIR)、地标识别、特征匹配、向量检索系统评测。
- 参考
ImageNet
- 官网
- 说明
- 基于 WordNet 层级结构组织,包含超过 1,400 万张人工标注图像,覆盖 21,841 个 synset(同义词集)。
- ImageNet-1K(ILSVRC 2012 子集):最常用子集,含 1,000 个类别,约 128 万训练图 + 5 万验证图 + 10 万测试图。
- 每张图像对应一个类别标签,强调细粒度分类(如不同犬种、鸟类)。
- 评估指标主要为 Top-1 / Top-5 分类准确率。
Cifar10/Cifar100
- 官网
- 说明
- CIFAR-10:60,000 张 32×32 彩色图像,10 个互斥类别(如 airplane, cat, ship),50,000 训练 + 10,000 测试。
- CIFAR-100:同样 60,000 张 32×32 图像,但分为 100 个细粒度类别,组织为 20 个超类(superclass),每图有 fine label 和 coarse label。
- 参考
FashionMNIST
- 官网
- 说明
- 包含 70,000 张 28×28 灰度图像,10 类时尚单品(T恤、裤子、套衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包、短靴)。
- 划分:60,000 训练 + 10,000 测试,格式与 MNIST 完全兼容。
- 相比 MNIST 更具挑战性,避免“过于简单”的问题。
- 参考
Penn-Fudan
- 官网
- 说明
- 共 170 张高分辨率户外行人图像(96 张来自宾夕法尼亚大学,74 张来自复旦大学),包含 345 个行人实例。
- 每个行人提供像素级二值分割掩码(PNG 格式)和边界框标注。
- 场景包括校园、街道,存在遮挡、尺度变化和复杂背景。
- 标注格式兼容 PASCAL VOC 1.0。
- 参考
German Credit Data
- 官网
- 说明
- 包含 1,000 条客户信用记录,每条含 20 个属性(如年龄、职业、贷款金额、信用历史等),均为结构化特征。
- 目标变量为二元分类:信用“好”或“坏”(bad = 1 表示高风险)。
- 数据存在类别不平衡(约 70% 好客户,30% 坏客户)。
- 参考