[論文レビュー] Training data-efficient image transformers & distillation through attention
この論文は、1つの8-GPUノードで3日未塔にImageNet-1kのみを用いてトレーニングされたデータ効率の良いビジョントランスフォーマーであるDeiT(Data-efficient Image Transformers)を紹介する。83.1%のトップ1精度を達成した。教師モデルから学生トランスフォーマーへの知識伝達を、注意機構を介して行う専用のドキュメンテーショントークンを用いた、新たなドキュメンテーション手法を提案しており、特に教師モデルが畳み込みネットワークの場合に、標準的なドキュメンテーションよりも顕著に優れた性能を発揮する。
Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. However, these visual transformers are pre-trained with hundreds of millions of images using an expensive infrastructure, thereby limiting their adoption. In this work, we produce a competitive convolution-free transformer by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop evaluation) on ImageNet with no external data. More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.
研究の動機と目的
- 外部データや大規模インfraを一切使用せず、ImageNet-1kのみを用いて、競争力のある精度を達成するビジョントランスフォーマーのトレーニングを目的とする。
- 標準的なハードウェアで高速収束を可能にする、データ効率の良いビジョントランスフォーマーのトレーニングプロトコルを構築することを目的とする。
- トランスフォーマーに特化した、従来の知識ドキュメンテーションを上回る新たなドキュメンテーション戦略を導入することを目的とする。
- 効率的なトレーニングにより、ビジョントランスフォーマーが畳み込みネットワークを同等または上回る精度と転移性能を達成できることを示すこと
提案手法
- クラストークンに似た動作をするが、自己注意機構を通じて教師モデルのソフトラベルを予測するように学習される、新しいドキュメンテーショントークンを導入する。
- 学生-教師フレームワークを採用し、学生トランスフォーマーがドキュメンテーショントークンを介して教師の注意に基づく出力分布から学習する。
- 一般化性能とロバストネスを向上させるために、繰り返しのデータオーグメンテーション、mixup、CutMix、RandAugmentを採用する。
- トレーニングの安定化のため、重み減衰、ラベルスムージング、確率的深さ、学習率スケーリングを適用する。
- 解像度の微調整時に位置埋め込みの適応にバイキュービック補間を用い、ノルムと性能を保持する。
- 1つの8-GPUノードで300エポックのトレーニングを実施し、DeiT-Bでは約53時間で収束を達成した。
実験結果
リサーチクエスチョン
- RQ1ImageNet-1kのみを用い、外部データなしでビジョントランスフォーマーがSOTA性能を達成できるか?
- RQ2限られたデータでのデータ効率の良いビジョントランスフォーマーのトレーニングに不可欠な技術は何か?
- RQ3トランスフォーマーに特化したドキュメンテーション手法は、従来の知識ドキュメンテーションを上回る性能を発揮できるか?
- RQ4畳み込みネットワークからドキュメンテーションを行うと、他のトランスフォーマーからドキュメンテーションするよりも優れた性能が得られるか?
- RQ5標準的なドキュメンテーションと比較して、提案されたドキュメンテーショントークンは、精度と一般化性能においてどのように差をつけるか?
主な発見
- DeiT-Bは、1つの8-GPUノードで3日未塔にImageNet-1kのみを用いてトレーニングし、83.1%のトップ1精度を達成した。
- 提案されたドキュメンテーショントークン(DeiT⚗)を用いることで、ImageNet-1kで85.2%のトップ1精度に到達し、標準的なドキュメンテーションを上回った。
- ResNet-50の教師モデルからドキュメンテーションを行うと、同等のViT教師モデルからドキュメンテーションするよりも優れた性能が得られ、インダクティブバイアス伝達の有効性を示した。
- ドキュメンテーショントークン戦略は、特に低データ環境下で顕著に性能を向上させ、標準的なドキュメンテーションよりも優れた効果を示した。
- DeiTモデルは、CIFAR-10、CIFAR-100、Oxford-102 Flowers、Stanford Cars、iNaturalist-18/19といった下流タスクでも競争力のある結果を達成した。
- 解像度を高めた微調整(384×384)により、ImageNet-v2で87.7%の精度に到達し、モデルのスケーラビリティを示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。