Skip to main content
QUICK REVIEW

[论文解读] A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark

Xiaohua Zhai, Joan Puigcerver|arXiv (Cornell University)|Oct 1, 2019
Domain Adaptation and Few-Shot Learning参考文献 70被引用 160
一句话总结

本文提出 VTAB,这是一个广义基准,用于通过少量标签将预训练模型转移到多样但未见过的任务,以评估通用视觉表征,并在受控条件下对监督、自监督、半监督和生成式预训练方法进行大规模比较。

ABSTRACT

Representation learning promises to unlock deep learning for the long tail of vision tasks without expensive labelled datasets. Yet, the absence of a unified evaluation for general visual representations hinders progress. Popular protocols are often too constrained (linear classification), limited in diversity (ImageNet, CIFAR, Pascal-VOC), or only weakly related to representation quality (ELBO, reconstruction error). We present the Visual Task Adaptation Benchmark (VTAB), which defines good representations as those that adapt to diverse, unseen tasks with few examples. With VTAB, we conduct a large-scale study of many popular publicly-available representation learning algorithms. We carefully control confounders such as architecture and tuning budget. We address questions like: How effective are ImageNet representations beyond standard natural datasets? How do representations trained via generative and discriminative models compare? To what extent can self-supervision replace labels? And, how close are we to general visual representations?

研究动机与目标

  • 提出 Visual Task Adaptation Benchmark (VTAB),以衡量表征在有限标签下向多样、未见视觉任务转移的能力。
  • 量化在受控的架构、数据和调优预算下,不同上游表征学习范式(监督、自监督、半监督、生成式)在表现上的差异。
  • 评估 ImageNet 预训练是否能超越自然图像的泛化,并评估自监督和生成模型在表征学习中的作用。
  • 为评估协议、超参数调优策略以及构建通用视觉表征的实际影响提供指南。

提出的方法

  • 定义 VTAB 任务分布及评估协议,以在有限标签下对许多未见任务进行近似学习。
  • 将任务转换为同质化的分类接口,以实现公平比较,便于统一的迁移评估。
  • 评估18种预训练方法(覆盖监督、自监督、半监督和生成模型),在 ImageNet 上进行预训练,采用微调作为迁移策略。
  • 控制混杂因素,如架构(类似 ResNet-50 的骨干网络)、预训练数据和下游超参数搜索预算(轻量级与重量级)。
  • 分析线性迁移与完全微调,以研究相关性及常用迁移探针的可靠性。
  • 提供经验性洞见,说明不同预训练信号如何影响在自然、专业化和结构化任务上的迁移。

实验结果

研究问题

  • RQ1ImageNet 监督表示在向多样、未见视觉任务迁移时,对超出标准自然图像范围的任务有多大效果?
  • RQ2自监督和半监督表示在迁移到 VTAB 任务时,与监督表示相比有何差异?
  • RQ3相对于判别模型,生成模型在下游迁移中能提供多大程度的有用表示?
  • RQ4在 VTAB 任务中,微调与线性评估之间的选择如何影响对表示质量的结论?
  • RQ5为了稳健地评估通用视觉表征,需要哪些实际考虑(超参数、预算、任务多样性)?

主要发现

  • 监督的 ImageNet 预训练为自然任务提供了强表征,但在结构化理解任务上存在局限。
  • 自监督表征通常优于随机初始化,但总体落后于监督表征,然而可以提升结构化任务,在充足标签时有时接近监督表现。
  • 将监督与自监督结合可获得强结果,自监督在许多设置中也可以替代或补充标签。
  • 判别表征在迁移中往往优于生成表征,BigBiGAN 是对抗训练的编码器中的一个例外。
  • 基于 GAN 的表征(尤其来自判别器)在大多数 VTAB 任务上的表现落后于自监督和监督方法,域对齐(类似 ImageNet 的数据)会影响性能。
  • 线性评估(冻结特征)显著低估迁移潜力,相较微调其可靠性在不同任务组上变化;因此,线性探针并非表示质量的普遍代理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。