Skip to main content
QUICK REVIEW

[论文解读] LSUN: Construction of a Large-scale Image Dataset using Deep Learning with Humans in the Loop

Fisher Yu, Ari Seff|arXiv (Cornell University)|Jun 10, 2015
Domain Adaptation and Few-Shot Learning参考文献 24被引用 1,368
一句话总结

本文提出LSUN,一个大规模图像数据集,每个类别包含约一百万张带标签图像,通过人机协同的深度学习流程构建,该流程迭代地选择、标注并传播注释以扩大覆盖范围。该方法实现了超过90%的标签精确度,并在视觉识别任务中显著提升性能,与ImageNet预训练相比,基于LSUN微调的模型在基准测试中错误率最高降低22.37%。

ABSTRACT

While there has been remarkable progress in the performance of visual recognition algorithms, the state-of-the-art models tend to be exceptionally data-hungry. Large labeled training datasets, expensive and tedious to produce, are required to optimize millions of parameters in deep network models. Lagging behind the growth in model capacity, the available datasets are quickly becoming outdated in terms of size and density. To circumvent this bottleneck, we propose to amplify human effort through a partially automated labeling scheme, leveraging deep learning with humans in the loop. Starting from a large set of candidate images for each category, we iteratively sample a subset, ask people to label them, classify the others with a trained model, split the set into positives, negatives, and unlabeled based on the classification confidence, and then iterate with the unlabeled set. To assess the effectiveness of this cascading procedure and enable further progress in visual recognition research, we construct a new image dataset, LSUN. It contains around one million labeled images for each of 10 scene categories and 20 object categories. We experiment with training popular convolutional networks and find that they achieve substantial performance gains when trained on this dataset.

研究动机与目标

  • 通过创建比现有基准(如ImageNet和Places)更密集、更大规模的训练数据集,解决深度学习模型日益增长的数据需求。
  • 通过采用具有人类反馈的级联主动学习框架实现标签传播,减少人工标注的瓶颈。
  • 评估在更大、噪声更多但类别密度更高的数据集上进行训练是否能提升模型的泛化能力和性能。
  • 构建并发布一个免费、可扩展的图像数据集,以支持未来大规模视觉识别的发展。

提出的方法

  • 使用基于关键词的网络爬取,为每个类别收集10^7至10^8张候选图像作为初始图像池。
  • 迭代选择少量图像进行人工标注,然后在已标注子集上训练分类器。
  • 将训练好的分类器应用于剩余图像,预测标签和置信度,再根据置信度阈值进行过滤。
  • 将数据集划分为正样本、负样本和未标注样本,并在未标注样本上重复该过程,以提升覆盖范围和质量。
  • 使用统计检验验证标签质量,确保最终数据集的精确度超过90%。
  • 使用最终数据集对深度卷积神经网络进行预训练和微调,并在标准基准上进行评估。

实验结果

研究问题

  • RQ1人机协同的深度学习流程能否有效扩展大规模、高密度图像数据集的创建?
  • RQ2在更大、类别更密集的数据集(如LSUN)上进行训练,是否比在更小、更多样化数据集(如ImageNet)上训练获得更好的性能?
  • RQ3与更小、更清洁的数据集相比,大规模数据集中标签噪声在多大程度上影响模型的泛化能力?
  • RQ4与ImageNet预训练相比,从LSUN中学习表示在特征质量和模型性能方面表现如何?

主要发现

  • 在PLACES和LSUN上微调AlexNet,相较于仅使用PLACES,其在PLACES测试集上的分类错误率降低了22.37%。
  • 在PASCAL VOC 2012上,LSUN预训练的模型表现优于ImageNet预训练的模型,AlexNet的mAP提升了9%,VGG的mAP提升了6%。
  • 从LSUN数据中学到的第一层卷积核在视觉上更清晰、更少噪声,表明其特征学习效果更优。
  • 尽管LSUN数据集中存在部分标签噪声,但其训练出的模型性能仍优于更小、更清洁的数据集,表明数据密度在模型性能中的作用超过少量噪声的负面影响。
  • 人机协同流程实现了超过90%的标签精确度,证明自动化可显著提升人工标注效率,且不牺牲质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。