[論文レビュー] Vision Transformers with Patch Diversification
本論文は Vision Transformer におけるパッチ表現を多様化する3つのパッチ多様性損失を導入し、訓練を安定化させ、ImageNet の精度を向上させ、アーキテクチャを変更せずにセマンティックセグメンテーションの性能を改善します。
Vision transformer has demonstrated promising performance on challenging computer vision tasks. However, directly training the vision transformers may yield unstable and sub-optimal results. Recent works propose to improve the performance of the vision transformers by modifying the transformer structures, e.g., incorporating convolution layers. In contrast, we investigate an orthogonal approach to stabilize the vision transformer training without modifying the networks. We observe the instability of the training can be attributed to the significant similarity across the extracted patch representations. More specifically, for deep vision transformers, the self-attention blocks tend to map different patches into similar latent representations, yielding information loss and performance degradation. To alleviate this problem, in this work, we introduce novel loss functions in vision transformer training to explicitly encourage diversity across patch representations for more discriminative feature extraction. We empirically show that our proposed techniques stabilize the training and allow us to train wider and deeper vision transformers. We further show the diversified features significantly benefit the downstream tasks in transfer learning. For semantic segmentation, we enhance the state-of-the-art (SOTA) results on Cityscapes and ADE20k. Our code is available at https://github.com/ChengyueGongR/PatchVisionTransformer.
研究の動機と目的
- パッチ表現の高い類似性によって深層 vision transformers に観察される不安定性を動機づける。
- 層間でパッチ特徴を明示的に多様化させる正則化損失を提案する。
- 多様性を促進する訓練が訓練を安定させ、より広い/深い transformers の訓練を可能にすることを示す。
- Cityscapes および ADE20K のセマンティックセグメンテーションのベンチマークにおける転移学習性能の改善を示す。
提案手法
- 最終層で異なるパッチ表現間のコサイン類似度を直接最小化するために、パッチごとのコサイン損失を計算する。
- 最後の層のパッチを最初の層のパッチに合わせつつ、異なるパッチを離すようにするパッチごとの対照損失を導入する。
- 二つの画像の入力パッチを混ぜることでパッチごとのミキシング損失を適用し、パッチが自身の画像ラベルを予測するよう訓練する。
- ネットワーク変更なしで3つの損失の重み付き和(α1 L_cos + α2 L_contrastive + α3 L_mixing)で訓練する。
- 既存のアーキテクチャ(例: DeiT, SWIN)を活用して ImageNet および下流のセグメンテーションタスクの改善を評価する。
実験結果
リサーチクエスチョン
- RQ1パッチ表現の明示的な多様化は deep/wide vision transformers の訓練を安定化させることができるか?
- RQ2パッチ多様性損失はアーキテクチャの変更なしに ImageNet の分類精度を向上させるか?
- RQ3多様化したパッチ特徴は semantic segmentation のような下流タスクへより良く転移するか?
- RQ4提案された損失は既存のトレーニング工夫やデータ拡張とどのように相互作用するか?
主な発見
- ImageNet で、DeiT-Base24 with DiversePatch は 83.3% top-1 accuracy (from 82.1%), DeiT-Small24 は 82.2% (from 80.3%) に達した。
- SWIN-Base with DiversePatch は 83.7% top-1 accuracy (83.4% から)、SWIN-Large は ImageNet-22K で事前学習しファインチューニングした場合 87.4% となる。
- 最終表現のパッチごとのコサイン類似度が低下し、パッチ特徴がより多様になり後段レイヤーでResNet-50と比較可能になる。
- DiversePatch で事前訓練したバックボーンは ADE20K で新しい最先端のセグメンテーション性能(54.5% mIoU)と Cityscapes validation(83.6% mIoU)を達成。
- ImageNet-22K ファインチューニングで DiversePatch は SWIN-Large で 87.4% top-1、ViT-Large で 83.9%(ベースラインの 87.3% および 83.6% に対して)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。