QUICK REVIEW

[论文解读] Large Scale Learning of General Visual Representations for Transfer.

Alexander Kolesnikov, Lucas Beyer|arXiv (Cornell University)|Dec 24, 2019

Domain Adaptation and Few-Shot Learning参考文献 28被引用 75

一句话总结

本文提出了大迁移（Big Transfer，BiT），一种通过大规模监督预训练结合微调的简单而有效的通用视觉表征学习方法。通过扩大预训练规模并采用启发式迁移策略，BiT 在 20 多个数据集上均取得了最先进性能，在使用 100 万个样本时于 ImageNet 上达到 87.5% 的 top-1 准确率，仅使用每类 10 个样本时也达到 76.8%。

ABSTRACT

Transfer of pre-trained representations improves sample efficiency and simplifies hyperparameter tuning when training deep neural networks for vision. We revisit the paradigm of pre-training on large supervised datasets and fine-tuning the model on a target task. We scale up pre-training, and propose a simple recipe that we call Big Transfer (BiT). By combining a few carefully selected components, and transferring using a simple heuristic, we achieve strong performance on over 20 datasets. BiT performs well across a surprisingly wide range of data regimes -- from 1 example per class to 1M total examples. BiT achieves 87.5% top-1 accuracy on ILSVRC-2012, 99.4% on CIFAR-10, and 76.3% on the 19 task Visual Task Adaptation Benchmark (VTAB). On small datasets, BiT attains 76.8% on ILSVRC-2012 with 10 examples per class, and 97.0% on CIFAR-10 with 10 examples per class. We conduct detailed analysis of the main components that lead to high transfer performance.

研究动机与目标

通过利用大规模预训练表征，提升样本效率并减少视觉深度学习中的超参数调优。
探究在监督数据集上扩大预训练是否能提升在多样化数据配置下的迁移性能。
开发一种简单、可扩展的迁移学习方案，使其在不同标注数据量的数据集上均具有良好的泛化能力。

提出的方法

使用标准训练流程，在大规模监督数据集（如 ImageNet-1k）上预训练深层神经网络。
采用简单的微调启发式策略：替换最终分类层，并仅使用固定的小初始权重训练新头。
将预训练规模扩展至 100 万个样本，并使用广泛的图像增强技术以提升泛化能力。
在无需架构修改的情况下，将同一预训练模型和微调策略应用于多样化下游任务。
在微调过程中采用一致的学习率调度和权重初始化策略，以确保鲁棒性。

实验结果

研究问题

RQ1在大规模监督数据集上扩大预训练是否能提升在多样化下游任务中的迁移性能？
RQ2一种简单统一的微调策略是否能在数据量差异巨大的数据集上均实现优异性能？
RQ3BiT 在小样本场景（如每类 1–10 个样本）下的表现如何？
RQ4训练方案中的哪些组件对实现高迁移准确率最为关键？
RQ5与其它迁移学习方法相比，BiT 在准确率和样本效率方面表现如何？

主要发现

使用 100 万个训练样本时，BiT 在 ILSVRC-2012 上达到 87.5% 的 top-1 准确率，展现出在大规模 ImageNet 上的强大性能。
仅使用每类 10 个样本时，BiT 在 ILSVRC-2012 上达到 76.8% 的 top-1 准确率，显著优于先前方法在低数据场景下的表现。
在 CIFAR-10 上，BiT 使用完整训练数据时准确率达到 99.4%，仅使用每类 10 个样本时也达到 97.0%。
在包含 19 项任务的 VTAB 基准测试中，BiT 平均准确率达到 76.3%，展现出在多样化视觉任务中的强大泛化能力。
简单的迁移启发式策略——替换最后一层并仅训练头部——在所有数据集和数据配置下均带来一致的性能提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。