数据集汇总

汇总本站涵盖的主流数据集说明,覆盖图像分类、目标检测、实例分割、OCR 及大模型预训练等核心任务。

LAION数据集

  • 官网
  • 说明
    • LAION5B
      • 规模:约 58.5 亿(5.85B) 图像-文本对,是目前全球最大的公开多模态图文数据集。
      • 语言:主要为英文,但也包含其他语言内容(后续有翻译子集如 Laion Translated)。
      • 构建方式
        • 源自 Common Crawl 网页快照中的 <img> 标签及其附近文本(alt、标题、周围段落等)。
        • 使用 OpenAI CLIP ViT-L/14 模型 对每对图像和文本计算余弦相似度,仅保留相似度 ≥ 0.28 的样本(部分子集使用更严格阈值)。
      • 元信息
        • 提供 NSFW(不适宜工作场所)检测分数
        • 水印检测分数
        • 美学评分(Aesthetic Score)(基于在 CLIP 特征上训练的回归模型)
        • 部分子集提供分辨率、宽高比、语言识别等附加字段
      • 子集示例
        • LAION-2B-en:LAION-5B 中识别为英文的约 23.2 亿 图文对。
        • LAION-5B High-Res:分辨率 ≥1024×1024 的 1.7 亿 高清图像子集。
        • LAION-Aesthetics:美学评分较高的子集,常用于文生图模型训练。
      • 用途:大规模多模态预训练(如 OpenCLIP)、零样本迁移、图文检索、生成模型(如 Stable Diffusion)等。
    • LAION2B
      • 规模:约 23.2 亿(2.32B) 图像-文本对。
      • 来源:LAION-5B 的英文子集(通过语言检测模型筛选出的英文图文对)。
      • 筛选方式
        • 同样基于 CLIP 过滤(余弦相似度 ≥ 0.28)。
        • 保留原始 URL、文本、图像哈希(pHash)等信息,便于去重与溯源。
      • 特点
        • 是 OpenCLIP 大模型(如 ViT-H/14、ViT-g/14)训练的主要数据源。
        • 相比 LAION-5B 更“干净”(限定语言),适合需要高质量英文监督信号的任务。
      • 用途:训练高性能开源 CLIP 模型、跨模态对齐研究、缩放定律验证等。
    • LAION-400M
      • 规模:约 4.13 亿 图像-文本对(常简称为 400M)。
      • 语言:全部为英文。
      • 构建与筛选
        • 同样源自 Common Crawl。
        • 使用 OpenAI CLIP 模型 计算图文相似度,仅保留余弦相似度 ≥ 0.3 的样本(比 LAION-5B 更严格)。
        • 删除重复项(基于图像 pHash 去重)。
      • 图像分辨率分布(近似统计):
        • 至少一维 ≥1024:约 2600 万
        • 两维均 ≥1024:约 960 万
        • 两维均 ≥256:约 2.11 亿(占主体)
      • 历史意义
        • 是首个被广泛采用的大规模开源 CLIP 训练数据集。
        • 被用于早期 OpenCLIP 模型训练、Stable Diffusion v1 的预训练阶段等。
      • 用途:零样本图像分类、跨模态检索、教学与研究基准等。
  • 参考

CCPD

  • 官网
  • 说明
    • 总计超 30 万张中国城市停车场场景下的车牌图像,每图仅含一个车牌。
    • 包含多个子集:Base(基础)、DB(密集)、Blur(模糊)、FN(远近)、Rotate、Tilt、Challenge、Green(新能源八位车牌)。
    • 车牌标注以文件名形式嵌入,包含边界框、四顶点坐标、省份+字母+数字共 7 位字符(或 8 位)。
    • 领域:车牌检测(License Plate Detection)、车牌识别(OCR)、端到端车牌理解。
    • 评估指标:IoU > 0.7 判定检测正确,字符全对判定识别正确。
  • 参考

WIDERFACE

  • 官网
  • 说明
    • 包含 32,203 张图像,标注 393,703 个人脸实例。
    • 图像选自 WIDER 数据集,按 61 个事件类别组织,具有极高的尺度、姿态、遮挡多样性。
    • 划分:40% 训练 / 10% 验证 / 50% 测试(测试集不公开标注,需提交结果评估)。
    • 采用 PASCAL VOC 风格的 AP 评估,但按 Easy / Medium / Hard 三档难度分别报告。
    • 领域:人脸检测、鲁棒目标检测、小目标检测。
  • 参考

COCO

  • 官网
  • 说明
    • COCO 2017(最常用版本)
      • COCO 2017 是目前社区最广泛采用的版本(取代了早期的 2014/2015),其图像集合与 COCO 2014 相同,但重新划分了训练集、验证集和测试集。
      • 目标检测 / 实例分割数据构成(instances 任务)
      • 总图像数:约 163,957 张(训练 + 验证 + 测试)
      • 总标注实例数:约 896,000 个(仅含 train2017 + val2017 的公开标注)
    • 类别说明(目标检测 / 实例分割)
      • 类别数量80 个 “thing” 类别(即可数、有明确边界的物体实例)
      • 类别来源:从原始 91 个语义类别中筛选出适合实例级标注的 80 类(排除如 “door”、“mirror” 等难以精确定义实例边界或常被遮挡的类别)
      • 类别示例
        • 人(person)
        • 车辆(car, truck, bus, bicycle, motorcycle)
        • 动物(dog, cat, horse, cow, bird)
        • 日用品(bottle, cup, chair, table, sofa, tv)
        • 厨房用具(knife, spoon, fork, bowl)
        • 运动器材(sports ball, kite, skateboard)
      • 超类(supercategory):80 类被组织为 12 个超类,如 personvehicleanimalfurniturekitchen 等,便于层次化分析。
      • 注意:COCO 检测/分割任务不包含另外 11 个 “stuff” 类别(如 sky, grass, road, wall 等无明确实例边界的区域)。这些属于 Stuff SegmentationPanoptic Segmentation 任务。
    • 评估标准特点
      • 使用 10 个 IoU 阈值(0.50, 0.55, …, 0.95)计算 AP,并取平均(即 mAP@[.5:.95])。
      • 同时报告按目标尺度划分的 AP:small(面积 < 32²)、**medium**(32² ~ 96²)、**large**(> 96²)。
      • 比 PASCAL VOC(仅 IoU=0.5)更严格,更能反映模型在高定位精度下的性能。
  • 参考
集合 图像数量 标注实例总数 小目标 (area < 1024) 中目标 (1024 ≤ area ≤ 9216) 大目标 (area > 9216) 说明
train2017 118,287 ≈860,000 ≈352,000 (41.0%) ≈293,000 (34.1%) ≈215,000 (24.9%) 用于模型训练
val2017 5,000 ≈36,000 ≈14,800 (41.1%) ≈12,300 (34.2%) ≈8,900 (24.7%) 用于验证调参(公开标注)
test2017 40,670 用于官方测试(标注不公开,需提交至 COCO 评测服务器)

注意

  • 百分比基于各集合的总实例数计算,与 COCO 论文及官方统计数据一致(小目标占比最高,体现其对密集、小物体场景的强调)。
  • 具体数值因不同解析方式可能略有浮动(±0.5%),但比例稳定。
  • 面积(area)指标注 mask 的像素数量(对于 bounding box,则为 w × h)。

Pascal VOC

Oxford5k/Paris6k

  • 官网
  • 说明
    • Oxford5k:5,062 张牛津大学周边建筑图像,11 个地标,每地标 5 张查询图(共 55 张)。
    • Paris6k:6,412 张巴黎著名建筑图像,12 个地标,同样提供查询图。
    • 图像尺寸约为 1024×768,来自 Flickr,具有真实场景中的视角、光照、遮挡变化。
    • 标注分为四类:Good / OK(视为正样本)、Junk(负样本)、Bad(忽略)。
    • 评估指标为 mAP(mean Average Precision),常用于图像检索、地标识别任务。
    • 后续扩展版 Revisited Oxford/Paris 增加了 15 张更具挑战性的查询图,并引入 1M 干扰图像构建大规模检索基准。
    • 领域:基于内容的图像检索(CBIR)、地标识别、特征匹配、向量检索系统评测。
  • 参考

ImageNet

  • 官网
  • 说明
    • 基于 WordNet 层级结构组织,包含超过 1,400 万张人工标注图像,覆盖 21,841 个 synset(同义词集)
    • ImageNet-1K(ILSVRC 2012 子集):最常用子集,含 1,000 个类别,约 128 万训练图 + 5 万验证图 + 10 万测试图。
    • 每张图像对应一个类别标签,强调细粒度分类(如不同犬种、鸟类)。
    • 评估指标主要为 Top-1 / Top-5 分类准确率。

Cifar10/Cifar100

  • 官网
  • 说明
    • CIFAR-10:60,000 张 32×32 彩色图像,10 个互斥类别(如 airplane, cat, ship),50,000 训练 + 10,000 测试。
    • CIFAR-100:同样 60,000 张 32×32 图像,但分为 100 个细粒度类别,组织为 20 个超类(superclass),每图有 fine label 和 coarse label。
  • 参考

FashionMNIST

  • 官网
  • 说明
    • 包含 70,000 张 28×28 灰度图像,10 类时尚单品(T恤、裤子、套衫、连衣裙、外套、凉鞋、衬衫、运动鞋、包、短靴)。
    • 划分:60,000 训练 + 10,000 测试,格式与 MNIST 完全兼容。
    • 相比 MNIST 更具挑战性,避免“过于简单”的问题。
  • 参考

Penn-Fudan

  • 官网
  • 说明
    • 共 170 张高分辨率户外行人图像(96 张来自宾夕法尼亚大学,74 张来自复旦大学),包含 345 个行人实例。
    • 每个行人提供像素级二值分割掩码(PNG 格式)和边界框标注。
    • 场景包括校园、街道,存在遮挡、尺度变化和复杂背景。
    • 标注格式兼容 PASCAL VOC 1.0。
  • 参考

German Credit Data

  • 官网
  • 说明
    • 包含 1,000 条客户信用记录,每条含 20 个属性(如年龄、职业、贷款金额、信用历史等),均为结构化特征。
    • 目标变量为二元分类:信用“好”或“坏”(bad = 1 表示高风险)。
    • 数据存在类别不平衡(约 70% 好客户,30% 坏客户)。
  • 参考

Iris

  • 官网
  • 说明
    • 小规模数据集,共 150 个样本,3 类鸢尾花(Setosa, Versicolour, Virginica),每类 50 个。
    • 每样本含 4 个连续特征:萼片长/宽、花瓣长/宽(单位:厘米)。
    • Setosa 类与其他两类线性可分,后两者存在重叠,不可完全线性分离。
    • 是最早用于模式识别和统计分类的数据集之一(Fisher, 1936)。
  • 参考