[論文レビュー] Training data-efficient image transformers & distillation through attention
本論文は、畳み込みを用いないビジョントランスフォーマーを外部データを使わずImageNetのみでデータ効率的な手法で学習させ、トランスフォーマー専用の蒸留トークンを導入し、蒸留を含む強力なImageNet結果を含む、ConvNetと比べて競争力のある精度と転移性能を示す。
Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. However, these visual transformers are pre-trained with hundreds of millions of images using an expensive infrastructure, thereby limiting their adoption. In this work, we produce a competitive convolution-free transformer by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop evaluation) on ImageNet with no external data. More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.
研究の動機と目的
- 畳み込みを用いない視覚トランスフォーマーが、ImageNetデータのみと限定的な計算資源で競争力のあるImageNet性能を達成できることを示す。
- 教師からの知識を伝達するための、蒸留トークンに基づくトランスフォーマー専用の蒸留手法を導入する。
- 蒸留と全体的な性能に対する異なる教師(ConvNet対トランスフォーマー)の影響を評価する。
- DeiTモデルの下流の画像分類ベンチマークへの転移学習能力を評価する。
提案手法
- パッチトークン、クラス・トークン、そして新しい蒸留トークンを備えたViT風アーキテクチャ(DeiT)を採用する。
- ImageNet1k上で8-GPUノード1つで訓練する(事前学習53時間、合計約3日)強力なデータ拡張を用いてデータ効率を可能にする。
- 蒸留戦略を提案・形式化する:ソフト蒸留(温度付きKL発散)とハード蒸留(教師のハードラベル)、さらにトランスフォーマー専用の蒸留トークン。
- 蒸留トークンがクラス/蒸留トークンと自己注意を介して相互作用し、教師からの効果的な知識伝達を可能にすることを示す。
- 蒸留を用いて高解像度でファインチューニングし、推論時にクラスと蒸留分類器の遅融合を行う。
- データ効率的な訓練の重要因子を特定するため、ハイパーパラメータ、データ拡張、訓練スキームのアブレーションを提供する。
実験結果
リサーチクエスチョン
- RQ1外部データや大規模事前学習なしで、ビジョントランスフォーマーをImageNetで効果的に訓練できるか?
- RQ2トランスフォーマー専用の蒸留トークンは、通常の蒸留や蒸留なしと比べて学生モデルの性能を向上させるか?
- RQ3教師の選択(ConvNet対トランスフォーマー)が蒸留の利得にどう影響するか?
- RQ4DeiTモデルは、ConvNetや他のトランスフォーマーと比較して下流タスクに競争力のある転移を示すか?
主な発見
- ImageNet1kのみで訓練されたDeiTモデルは、外部データなしで競争力のTop-1精度を達成する(例:DeiT-Bは300エポックの事前学習で224入力時83.1%に達する)。
- 提案された蒸留トークンを用いた蒸留により、DeiTはImageNet-1kで最高85.2%のTop-1を達成し、同様の条件下でJFT-300Mで事前学習したViT-Bモデルを上回る。
- Convnet教師は一般にトランスフォーマー教師より蒸留性能が良く、より強い帰納バイアスがトランスフォーマーの訓練を支援することを示している。
- 蒸留ベースのDeiTモデルは、精度とスループットの間で有利なトレードオフを提供し、ImageNetのみで訓練した場合、ImageNet上でEfficientNetと競うかそれを上回ることが多い。
- DeiTモデルは下流タスクへ効果的に転移し、ImageNet事前学習後には競争力のあるConvNetモデルと同等の性能を示す。
- 蒸留モデルのより長い訓練スケジュールは継続的な改善をもたらす一方、非蒸留モデルは早期に飽和する傾向がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。