QUICK REVIEW

[論文レビュー] Training data-efficient image transformers & distillation through attention

Hugo Touvron, Matthieu Cord|arXiv (Cornell University)|Dec 23, 2020

Currency Recognition and Detection被引用数 130

ひとこと要約

本論文は、畳み込みを用いないビジョントランスフォーマーを外部データを使わずImageNetのみでデータ効率的な手法で学習させ、トランスフォーマー専用の蒸留トークンを導入し、蒸留を含む強力なImageNet結果を含む、ConvNetと比べて競争力のある精度と転移性能を示す。

ABSTRACT

Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. However, these visual transformers are pre-trained with hundreds of millions of images using an expensive infrastructure, thereby limiting their adoption. In this work, we produce a competitive convolution-free transformer by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop evaluation) on ImageNet with no external data. More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.

研究の動機と目的

畳み込みを用いない視覚トランスフォーマーが、ImageNetデータのみと限定的な計算資源で競争力のあるImageNet性能を達成できることを示す。
教師からの知識を伝達するための、蒸留トークンに基づくトランスフォーマー専用の蒸留手法を導入する。
蒸留と全体的な性能に対する異なる教師（ConvNet対トランスフォーマー）の影響を評価する。
DeiTモデルの下流の画像分類ベンチマークへの転移学習能力を評価する。

提案手法

パッチトークン、クラス・トークン、そして新しい蒸留トークンを備えたViT風アーキテクチャ（DeiT）を採用する。
ImageNet1k上で8-GPUノード1つで訓練する（事前学習53時間、合計約3日）強力なデータ拡張を用いてデータ効率を可能にする。
蒸留戦略を提案・形式化する：ソフト蒸留（温度付きKL発散）とハード蒸留（教師のハードラベル）、さらにトランスフォーマー専用の蒸留トークン。
蒸留トークンがクラス/蒸留トークンと自己注意を介して相互作用し、教師からの効果的な知識伝達を可能にすることを示す。
蒸留を用いて高解像度でファインチューニングし、推論時にクラスと蒸留分類器の遅融合を行う。
データ効率的な訓練の重要因子を特定するため、ハイパーパラメータ、データ拡張、訓練スキームのアブレーションを提供する。

実験結果

リサーチクエスチョン

RQ1外部データや大規模事前学習なしで、ビジョントランスフォーマーをImageNetで効果的に訓練できるか？
RQ2トランスフォーマー専用の蒸留トークンは、通常の蒸留や蒸留なしと比べて学生モデルの性能を向上させるか？
RQ3教師の選択（ConvNet対トランスフォーマー）が蒸留の利得にどう影響するか？
RQ4DeiTモデルは、ConvNetや他のトランスフォーマーと比較して下流タスクに競争力のある転移を示すか？

主な発見

ImageNet1kのみで訓練されたDeiTモデルは、外部データなしで競争力のTop-1精度を達成する（例：DeiT-Bは300エポックの事前学習で224入力時83.1%に達する）。
提案された蒸留トークンを用いた蒸留により、DeiTはImageNet-1kで最高85.2%のTop-1を達成し、同様の条件下でJFT-300Mで事前学習したViT-Bモデルを上回る。
Convnet教師は一般にトランスフォーマー教師より蒸留性能が良く、より強い帰納バイアスがトランスフォーマーの訓練を支援することを示している。
蒸留ベースのDeiTモデルは、精度とスループットの間で有利なトレードオフを提供し、ImageNetのみで訓練した場合、ImageNet上でEfficientNetと競うかそれを上回ることが多い。
DeiTモデルは下流タスクへ効果的に転移し、ImageNet事前学習後には競争力のあるConvNetモデルと同等の性能を示す。
蒸留モデルのより長い訓練スケジュールは継続的な改善をもたらす一方、非蒸留モデルは早期に飽和する傾向がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。

[論文レビュー] Training data-efficient image transformers &amp; distillation through attention