数据集汇总

发表于 2026-01-31 更新于 2026-02-07 分类于算法与模型，计算机视觉技术，经典机器学习方法阅读次数：本文字数： 2.8k 阅读时长 ≈ 10 分钟

汇总本站涵盖的主流数据集说明，覆盖图像分类、目标检测、实例分割、OCR 及大模型预训练等核心任务。

LAION数据集

官网
- LIAON
说明
- LAION5B
  - 规模：约 58.5 亿（5.85B） 图像-文本对，是目前全球最大的公开多模态图文数据集。
  - 语言：主要为英文，但也包含其他语言内容（后续有翻译子集如 Laion Translated）。
  - 构建方式：
    - 源自 Common Crawl 网页快照中的 <img> 标签及其附近文本（alt、标题、周围段落等）。
    - 使用 OpenAI CLIP ViT-L/14 模型 对每对图像和文本计算余弦相似度，仅保留相似度 ≥ 0.28 的样本（部分子集使用更严格阈值）。
  - 元信息：
    - 提供 NSFW（不适宜工作场所）检测分数
    - 水印检测分数
    - 美学评分（Aesthetic Score）（基于在 CLIP 特征上训练的回归模型）
    - 部分子集提供分辨率、宽高比、语言识别等附加字段
  - 子集示例：
    - LAION-2B-en：LAION-5B 中识别为英文的约 23.2 亿 图文对。
    - LAION-5B High-Res：分辨率 ≥1024×1024 的 1.7 亿 高清图像子集。
    - LAION-Aesthetics：美学评分较高的子集，常用于文生图模型训练。
  - 用途：大规模多模态预训练（如 OpenCLIP）、零样本迁移、图文检索、生成模型（如 Stable Diffusion）等。
- LAION2B
  - 规模：约 23.2 亿（2.32B） 图像-文本对。
  - 来源：LAION-5B 的英文子集（通过语言检测模型筛选出的英文图文对）。
  - 筛选方式：
    - 同样基于 CLIP 过滤（余弦相似度 ≥ 0.28）。
    - 保留原始 URL、文本、图像哈希（pHash）等信息，便于去重与溯源。
  - 特点：
    - 是 OpenCLIP 大模型（如 ViT-H/14、ViT-g/14）训练的主要数据源。
    - 相比 LAION-5B 更“干净”（限定语言），适合需要高质量英文监督信号的任务。
  - 用途：训练高性能开源 CLIP 模型、跨模态对齐研究、缩放定律验证等。
- LAION-400M
  - 规模：约 4.13 亿 图像-文本对（常简称为 400M）。
  - 语言：全部为英文。
  - 构建与筛选：
    - 同样源自 Common Crawl。
    - 使用 OpenAI CLIP 模型 计算图文相似度，仅保留余弦相似度 ≥ 0.3 的样本（比 LAION-5B 更严格）。
    - 删除重复项（基于图像 pHash 去重）。
  - 图像分辨率分布（近似统计）：
    - 至少一维 ≥1024：约 2600 万
    - 两维均 ≥1024：约 960 万
    - 两维均 ≥256：约 2.11 亿（占主体）
  - 历史意义：
    - 是首个被广泛采用的大规模开源 CLIP 训练数据集。
    - 被用于早期 OpenCLIP 模型训练、Stable Diffusion v1 的预训练阶段等。
  - 用途：零样本图像分类、跨模态检索、教学与研究基准等。
参考
- Reproducible scaling laws for contrastive language-image learning

CCPD

官网
- CCPD (Chinese City Parking Dataset, ECCV)
说明
- 总计超 30 万张中国城市停车场场景下的车牌图像，每图仅含一个车牌。
- 包含多个子集：Base（基础）、DB（密集）、Blur（模糊）、FN（远近）、Rotate、Tilt、Challenge、Green（新能源八位车牌）。
- 车牌标注以文件名形式嵌入，包含边界框、四顶点坐标、省份+字母+数字共 7 位字符（或 8 位）。
- 领域：车牌检测（License Plate Detection）、车牌识别（OCR）、端到端车牌理解。
- 评估指标：IoU > 0.7 判定检测正确，字符全对判定识别正确。
参考
- Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline

WIDERFACE

官网
- WIDER FACE: A Face Detection Benchmark
说明
- 包含 32,203 张图像，标注 393,703 个人脸实例。
- 图像选自 WIDER 数据集，按 61 个事件类别组织，具有极高的尺度、姿态、遮挡多样性。
- 划分：40% 训练 / 10% 验证 / 50% 测试（测试集不公开标注，需提交结果评估）。
- 采用 PASCAL VOC 风格的 AP 评估，但按 Easy / Medium / Hard 三档难度分别报告。
- 领域：人脸检测、鲁棒目标检测、小目标检测。
参考
- WIDER FACE: A Face Detection Benchmark

COCO

官网
- COCO - Common Objects in Context
说明
- COCO 2017（最常用版本）
  - COCO 2017 是目前社区最广泛采用的版本（取代了早期的 2014/2015），其图像集合与 COCO 2014 相同，但重新划分了训练集、验证集和测试集。
  - 目标检测 / 实例分割数据构成（instances 任务）
  - 总图像数：约 163,957 张（训练 + 验证 + 测试）
  - 总标注实例数：约 896,000 个（仅含 train2017 + val2017 的公开标注）
- 类别说明（目标检测 / 实例分割）
  - 类别数量：80 个 “thing” 类别（即可数、有明确边界的物体实例）
  - 类别来源：从原始 91 个语义类别中筛选出适合实例级标注的 80 类（排除如 “door”、“mirror” 等难以精确定义实例边界或常被遮挡的类别）
  - 类别示例：
    - 人（person）
    - 车辆（car, truck, bus, bicycle, motorcycle）
    - 动物（dog, cat, horse, cow, bird）
    - 日用品（bottle, cup, chair, table, sofa, tv）
    - 厨房用具（knife, spoon, fork, bowl）
    - 运动器材（sports ball, kite, skateboard）
  - 超类（supercategory）：80 类被组织为 12 个超类，如 person、vehicle、animal、furniture、kitchen 等，便于层次化分析。
  - 注意：COCO 检测/分割任务不包含另外 11 个 “stuff” 类别（如 sky, grass, road, wall 等无明确实例边界的区域）。这些属于 Stuff Segmentation 或 Panoptic Segmentation 任务。
- 评估标准特点
  - 使用 10 个 IoU 阈值（0.50, 0.55, …, 0.95）计算 AP，并取平均（即 mAP@[.5:.95]）。
  - 同时报告按目标尺度划分的 AP：small（面积 < 32²）、**medium**（32² ～ 96²）、**large**（> 96²）。
  - 比 PASCAL VOC（仅 IoU=0.5）更严格，更能反映模型在高定位精度下的性能。
参考

集合	图像数量	标注实例总数	小目标 (area < 1024)	中目标 (1024 ≤ area ≤ 9216)	大目标 (area > 9216)	说明
`train2017`	118,287	≈860,000	≈352,000 (41.0%)	≈293,000 (34.1%)	≈215,000 (24.9%)	用于模型训练
`val2017`	5,000	≈36,000	≈14,800 (41.1%)	≈12,300 (34.2%)	≈8,900 (24.7%)	用于验证调参（公开标注）
`test2017`	40,670	—	—	—	—	用于官方测试（标注不公开，需提交至 COCO 评测服务器）

注意：

百分比基于各集合的总实例数计算，与 COCO 论文及官方统计数据一致（小目标占比最高，体现其对密集、小物体场景的强调）。

具体数值因不同解析方式可能略有浮动（±0.5%），但比例稳定。

面积（area）指标注 mask 的像素数量（对于 bounding box，则为 w × h）。

Pascal VOC

官网
- The PASCAL Visual Object Classes Homepage
说明
- PASCAL VOC 2007：9,963 张图像（5,011 训练+验证 / 4,952 测试），20 个目标类别，共约 24,640 个标注实例。
- PASCAL VOC 2012：11,540 张图像（训练+验证），同样 20 类，标注更密集，共约 27,450 个实例。
  - 类别涵盖四大类：人（person）、动物（bird/cat/dog 等）、交通工具（car/bicycle/boat 等）、室内物品（bottle/chair/sofa 等）。
  - 提供目标检测、语义分割、人体关键点（仅 2010）等多任务标注。
  - 评估采用 VOC-style mAP（07 版本为 11 点插值，12 版本为全 PR 曲线下面积）。
- 领域：通用目标检测、实例分割、模型性能基准测试。
参考

Oxford5k/Paris6k

官网
- The Oxford Buildings Dataset
- The Paris Dataset
说明
- Oxford5k：5,062 张牛津大学周边建筑图像，11 个地标，每地标 5 张查询图（共 55 张）。
- Paris6k：6,412 张巴黎著名建筑图像，12 个地标，同样提供查询图。
- 图像尺寸约为 1024×768，来自 Flickr，具有真实场景中的视角、光照、遮挡变化。
- 标注分为四类：Good / OK（视为正样本）、Junk（负样本）、Bad（忽略）。
- 评估指标为 mAP（mean Average Precision），常用于图像检索、地标识别任务。
- 后续扩展版 Revisited Oxford/Paris 增加了 15 张更具挑战性的查询图，并引入 1M 干扰图像构建大规模检索基准。
- 领域：基于内容的图像检索（CBIR）、地标识别、特征匹配、向量检索系统评测。
参考
- Oxford5k and Paris6k
- Revisiting Oxford and Paris: Large-Scale Image Retrieval Benchmarking

ImageNet

官网
- https://www.image-net.org/
说明
- 基于 WordNet 层级结构组织，包含超过 1,400 万张人工标注图像，覆盖 21,841 个 synset（同义词集）。
- ImageNet-1K（ILSVRC 2012 子集）：最常用子集，含 1,000 个类别，约 128 万训练图 + 5 万验证图 + 10 万测试图。
- 每张图像对应一个类别标签，强调细粒度分类（如不同犬种、鸟类）。
- 评估指标主要为 Top-1 / Top-5 分类准确率。

Cifar10/Cifar100

官网
- The CIFAR-10 and CIFAR-100 datasets
说明
- CIFAR-10：60,000 张 32×32 彩色图像，10 个互斥类别（如 airplane, cat, ship），50,000 训练 + 10,000 测试。
- CIFAR-100：同样 60,000 张 32×32 图像，但分为 100 个细粒度类别，组织为 20 个超类（superclass），每图有 fine label 和 coarse label。
参考
- [数据集]cifar-10
- [数据集]cifar-100

FashionMNIST

官网
- zalandoresearch/fashion-mnist
说明
- 包含 70,000 张 28×28 灰度图像，10 类时尚单品（T恤、裤子、套衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包、短靴）。
- 划分：60,000 训练 + 10,000 测试，格式与 MNIST 完全兼容。
- 相比 MNIST 更具挑战性，避免“过于简单”的问题。
参考
- [数据集]Fashion-MNIST

Penn-Fudan

官网
- Penn-Fudan Database for Pedestrian Detection and Segmentation
说明
- 共 170 张高分辨率户外行人图像（96 张来自宾夕法尼亚大学，74 张来自复旦大学），包含 345 个行人实例。
- 每个行人提供像素级二值分割掩码（PNG 格式）和边界框标注。
- 场景包括校园、街道，存在遮挡、尺度变化和复杂背景。
- 标注格式兼容 PASCAL VOC 1.0。
参考
- [数据集]Penn-Fudan

German Credit Data

官网
- German Credit Data
说明
- 包含 1,000 条客户信用记录，每条含 20 个属性（如年龄、职业、贷款金额、信用历史等），均为结构化特征。
- 目标变量为二元分类：信用“好”或“坏”（bad = 1 表示高风险）。
- 数据存在类别不平衡（约 70% 好客户，30% 坏客户）。
参考
- [数据集]German Credit Data

Iris

官网
- Iris
说明
- 小规模数据集，共 150 个样本，3 类鸢尾花（Setosa, Versicolour, Virginica），每类 50 个。
- 每样本含 4 个连续特征：萼片长/宽、花瓣长/宽（单位：厘米）。
- Setosa 类与其他两类线性可分，后两者存在重叠，不可完全线性分离。
- 是最早用于模式识别和统计分类的数据集之一（Fisher, 1936）。
参考
- [数据集]Iris