[論文レビュー] DeepViT: Towards Deeper Vision Transformer
この論文は、ビジョン変換器(ViT)が深さとともに飽和する理由を分析し、多様なアテンションマップを再生する Re-attention を導入して非常に深い ViTs(例: 32 ブロック)を安定して訓練可能にし、追加データなしで ImageNet の精度を改善する。
Vision transformers (ViTs) have been successfully applied in image classification tasks recently. In this paper, we show that, unlike convolution neural networks (CNNs)that can be improved by stacking more convolutional layers, the performance of ViTs saturate fast when scaled to be deeper. More specifically, we empirically observe that such scaling difficulty is caused by the attention collapse issue: as the transformer goes deeper, the attention maps gradually become similar and even much the same after certain layers. In other words, the feature maps tend to be identical in the top layers of deep ViT models. This fact demonstrates that in deeper layers of ViTs, the self-attention mechanism fails to learn effective concepts for representation learning and hinders the model from getting expected performance gain. Based on above observation, we propose a simple yet effective method, named Re-attention, to re-generate the attention maps to increase their diversity at different layers with negligible computation and memory cost. The pro-posed method makes it feasible to train deeper ViT models with consistent performance improvements via minor modification to existing ViT models. Notably, when training a deep ViT model with 32 transformer blocks, the Top-1 classification accuracy can be improved by 1.6% on ImageNet. Code is publicly available at https://github.com/zhoudaquan/dvit_repo.
研究の動機と目的
- Vision Transformer を深さ方向にスケーリングすると性能が飽和する理由を調査する。
- 深い ViT でのアテンション崩壊の原因を特定する。
- 層間でアテンションを多様化する軽量な機構(Re-attention)を提案する。
- 初期から訓練したより深い ViTs が ImageNet-1k で精度を向上させることを示す。
提案手法
- ImageNet における ViT の深さスケーリングの経験的研究を行い、層間のアテンションマップの類似性を観察する。
- 層間アテンション類似性を用いてアテンション崩壊を定義・定量化する。
- アテンションヘッド間で情報を交換する学習可能なヘッド間変換として Re-attention を導入する。
- ViT ブロックで MHSA を Re-attention に置換して DeepViT アーキテクチャを構築する。
- 追加データやデータ拡張なしで ImageNet-1k における DeepViT を SOTA CNNs および ViTs と比較する。
- 埋め込み次元と深さの消融実験および代替のアテンションシャープニングのベースラインを提供する。
実験結果
リサーチクエスチョン
- RQ1ViT は CNN のようにより深いアーキテクチャから意味のある恩恵を受けられるのか、それとも性能が飽和してしまうのか。
- RQ2深い ViTs でアテンションマップが層を超えて似通ってしまう原因は何か。
- RQ3軽量な機構がアテンションヘッド間の情報を再利用して多様性を回復し、より深い ViT を可能にできるか。
- RQ4ImageNet-1k でゼロから学習させた DeepViT モデルは、同程度の計算量の既存の SOTA モデルを上回るか。
主な発見
| Model | Params. (M) | MAdds (G) | Top-1 Acc. (%) |
|---|---|---|---|
| ResNet50 | 25 | 4.0 | 76.2 |
| ResNet50* | 25 | 4.0 | 79.0 |
| RegNetY-8GF | 40 | 8.0 | 79.3 |
| Vit-B/16 | 86 | 17.7 | 77.9 |
| Vit-B/16* | 86 | 17.7 | 79.3 |
| T2T-ViT-16 | 21 | 4.8 | 80.6 |
| DeiT-S | 22 | - | 79.8 |
| DeepVit-S (Ours) | 27 | 6.2 | 81.4 |
| DeepVit-S ⋆ (Ours) | 27 | 6.2 | 82.3 |
| ResNet152 | 60 | 11.6 | 78.3 |
| ResNet152* | 60 | 11.6 | 80.6 |
| RegNetY-16GF | 54 | 15.9 | 80.0 |
| Vit-L/16 | 307 | - | 76.5 |
| T2T-ViT-24 | 64 | 12.6 | 81.8 |
| DeiT-B | 86 | - | 81.8 |
| DeiT-B* | 86 | 17.7 | 81.5 |
| DeepVit-L (Ours) | 55 | 12.5 | 82.2 |
| DeepVit-L ⋆ (Ours) | 58 | 12.8 | 83.1 |
| DeepVit-L ${}^{sterisk}oldy${} $ (Ours) | 58 | 12.8 | 84.3 |
- 標準の MHSA を用いた場合、ViT の深さを直接増やすと ImageNet で精度が飽和するか、むしろ低下する。
- より深い層のアテンションマップは高度に類似し(アテンション崩壊)、特徴の進化の停滞と相関する。
- 学習可能な行列でヘッド間にアテンションマップを線形混合する Re-attention は多様性を保持し、層間のアテンション崩壊を解消する。
- DeepViT モデル(32 ブロック)は一貫した精度向上を達成し、ImageNet-1k において追加データや学習 tricks なしで、ベースライン ViT およびいくつかの CNN/ViT SOTA モデルを上回る。
- MHSA を Re-attention に置換すると 0 件の類似ブロックアテンションマップとなり、32ブロックモデルで Top-1 精度を最大 1.6 ポイント改善。
- DeepViT-S および DeepViT-L は、いくつかの同時期モデルよりもパラメータ数が少ないまま競争力のある、あるいは優れた精度を達成(DeepViT-L は variant によって 82.2–83.1% に達する)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。