QUICK REVIEW

[论文解读] The Visual Task Adaptation Benchmark

Xiaohua Zhai, Joan Puigcerver|arXiv (Cornell University)|Sep 25, 2019

Domain Adaptation and Few-Shot Learning被引用 44

一句话总结

视觉任务迁移基准（VTAB）引入了一个统一、多样化且真实的评估基准，用于衡量视觉表征在新任务上的少样本微调能力。该基准评估了多种主流方法（包括ImageNet预训练、自监督学习和生成模型），结果表明不同任务间的表征质量差异显著，且即使在有标签数据可用的情况下，自监督方法仍能带来性能提升。

ABSTRACT

Representation learning promises to unlock deep learning for the long tail of vision tasks without expansive labelled datasets. Yet, the absence of a unified yardstick to evaluate general visual representations hinders progress. Many sub-fields promise representations, but each has different evaluation protocols that are either too constrained (linear classification), limited in scope (ImageNet, CIFAR, Pascal-VOC), or only loosely related to representation quality (generation). We present the Visual Task Adaptation Benchmark (VTAB): a diverse, realistic, and challenging benchmark to evaluate representations. VTAB embodies one principle: good representations adapt to unseen tasks with few examples. We run a large VTAB study of popular algorithms, answering questions like: How effective are ImageNet representation on non-standard datasets? Are generative models competitive? Is self-supervision useful if one already has labels?

研究动机与目标

为解决在多样化、真实任务上评估视觉表征时缺乏统一基准的问题。
评估表征在少样本、分布外任务上的泛化能力，超越ImageNet或CIFAR等标准基准。
比较不同表征学习范式（包括监督预训练、自监督和生成模型）的有效性。
探究当已有标签可用于微调时，自监督或生成表征是否仍具实用性。
建立一种标准评估协议，强调少样本适应能力，以反映现实世界中的部署场景。

提出的方法

VTAB 构建了一个包含18个多样化、真实视觉任务的基准，涵盖分类、检测、分割和深度估计。
每个任务使用少量标注样本（少样本）来评估零样本和微调适应性能。
该基准包含具有非标准数据分布的任务，如医学影像、卫星图像和合成数据集。
通过在线性探测和微调来评估表征，测量零样本和少样本准确率。
评估协议强调迁移能力和泛化能力，避免因标准数据集分布带来的偏差。
一项大规模研究在所有任务上评估了14种最先进表征学习算法，以比较其性能。

实验结果

研究问题

RQ1ImageNet预训练的表征在非标准、分布外的视觉任务上效果如何？
RQ2当在少样本任务上微调时，自监督表征是否与监督预训练具有竞争力？
RQ3生成模型能否产生能良好适应下游视觉任务的表征？
RQ4当已有标签可用于微调时，自监督是否仍能提供额外收益？
RQ5与标准基准相比，表征质量在多样化、真实任务上的表现差异如何？

主要发现

ImageNet预训练的表征在非标准数据集上泛化能力差，尤其在医学影像和卫星图像分割等任务上性能显著下降。
自监督表征在许多少样本任务上持续优于ImageNet预训练，尤其在数据有限时。
生成模型可产生具有竞争力的表征，但其性能高度依赖于架构和训练目标。
即使在有标签数据可用的情况下，自监督仍能带来可测量的性能增益，表明其捕捉到了监督预训练无法提供的有用归纳偏置。
该基准揭示了不同任务间存在显著的性能差距，凸显了提升表征学习泛化能力的迫切需求。
没有一种表征在所有任务上表现最佳，强调了任务特定适应和评估的重要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。