QUICK REVIEW

[論文レビュー] Large Scale Learning of General Visual Representations for Transfer.

Alexander Kolesnikov, Lucas Beyer|arXiv (Cornell University)|Dec 24, 2019

Domain Adaptation and Few-Shot Learning参考文献 28被引用数 75

ひとこと要約

この論文は、大規模な教師あり事前学習 followed で微調整を行う、一般視覚表現を学ぶための単純だが効果的なレシピであるBig Transfer（BiT）を紹介する。事前学習のスケーリングとヒューリスティックな転移戦略を用いることで、20以上のデータセットで最先端の性能を達成し、100万例の例を用いてImageNetでトップ1正解率87.5％、クラスあたり10例のみで76.8％を達成した。

ABSTRACT

Transfer of pre-trained representations improves sample efficiency and simplifies hyperparameter tuning when training deep neural networks for vision. We revisit the paradigm of pre-training on large supervised datasets and fine-tuning the model on a target task. We scale up pre-training, and propose a simple recipe that we call Big Transfer (BiT). By combining a few carefully selected components, and transferring using a simple heuristic, we achieve strong performance on over 20 datasets. BiT performs well across a surprisingly wide range of data regimes -- from 1 example per class to 1M total examples. BiT achieves 87.5% top-1 accuracy on ILSVRC-2012, 99.4% on CIFAR-10, and 76.3% on the 19 task Visual Task Adaptation Benchmark (VTAB). On small datasets, BiT attains 76.8% on ILSVRC-2012 with 10 examples per class, and 97.0% on CIFAR-10 with 10 examples per class. We conduct detailed analysis of the main components that lead to high transfer performance.

研究の動機と目的

大規模な事前学習済み表現を活用することで、視覚ディープラーニングにおけるサンプル効率の向上とハイパーパramータチューニングの低減を図ること。
教師ありデータセットでの事前学習のスケーリングが、多様なデータレジームにおいてより良い転移性能をもたらすかどうかを調査すること。
ラベル付きデータの量が異なるデータセットに広く一般化できる、単純でスケーラブルな転移学習のレシピを開発すること。

提案手法

標準的なトレーニング手順を用いて、ImageNet-1kなどの大規模な教師ありデータセット上で深層ニューラルネットワークを事前学習する。
単純なヒューリスティックな微調整を用いる：最終分類層を置き換え、新しいヘッドの初期重みを固定したまま、ヘッドのみを学習する。
事前学習を100万例にスケーリングし、一般化を向上させるために広範なデータオーグメンテーションを適用する。
アーキテクチャの変更なしに、多様な下流タスクに同じ事前学習モデルと微調整戦略を適用する。
微調整中に一貫した学習率スケジュールと重み初期化戦略を用いることで、堅牢性を確保する。

実験結果

リサーチクエスチョン

RQ1大規模な教師ありデータセットでの事前学習のスケーリングが、多様な下流タスクにおける転移性能の向上に寄与するか？
RQ2単純で統一された微調整戦略が、データサイズが著しく異なるデータセットにおいても強力な性能を発揮できるか？
RQ3BiTは、1〜10例／クラスの小規模データレジームにおいてどのように性能を発揮するか？
RQ4トレーニングレシピの中で、高精度な転移性能を達成するために最も重要な要素は何か？
RQ5精度とサンプル効率の観点から、他の転移学習手法と比較してBiTはどのように差をつけるか？

主な発見

100万例のトレーニング例を用いて、ILSVRC-2012でトップ1正解率87.5％を達成し、大規模なImageNetにおける強力な性能を示した。
クラスあたり10例のみで、ILSVRC-2012で76.8％のトップ1正解率を達成し、低データレジームにおいて従来手法を顕著に上回った。
CIFAR-10では、全データで99.4％の正解率に達し、10例／クラスで97.0％の正解率を達成した。
19タスクからなるVTABベンチマークでは、平均76.3％の正解率を達成し、多様なビジョンタスクにわたる強力な一般化性能を示した。
最終層を置き換え、ヘッドのみを学習するという単純な転移ヒューリスティックが、すべてのデータセットとデータレジームで一貫した性能向上をもたらした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。