[論文レビュー] Rethinking Spatial Dimensions of Vision Transformers
PiTはViTにプーリングベースのプーリング層を導入し、Vision TransformerにResNet風の空間次元削減を生み出す。これにより、ImageNet、検出、頑健性のベンチマーク全体でViTより精度と一般化が向上する。
Vision Transformer (ViT) extends the application range of transformers from language processing to computer vision tasks as being an alternative architecture against the existing convolutional neural networks (CNN). Since the transformer-based architecture has been innovative for computer vision modeling, the design convention towards an effective architecture has been less studied yet. From the successful design principles of CNN, we investigate the role of spatial dimension conversion and its effectiveness on transformer-based architecture. We particularly attend to the dimension reduction principle of CNNs; as the depth increases, a conventional CNN increases channel dimension and decreases spatial dimensions. We empirically show that such a spatial dimension reduction is beneficial to a transformer architecture as well, and propose a novel Pooling-based Vision Transformer (PiT) upon the original ViT model. We show that PiT achieves the improved model capability and generalization performance against ViT. Throughout the extensive experiments, we further show PiT outperforms the baseline on several tasks such as image classification, object detection, and robustness evaluation. Source codes and ImageNet models are available at https://github.com/naver-ai/pit
研究の動機と目的
- CNN風の空間次元削減(ダウンサンプリング)がトランスフォーマーベースの視覚モデルに有益かを調査する。
- トークンベース処理を犠牲にせず空間ダウンサンプリングを可能にするプーリングベースの機構をViTに拡張する。
- PiTを画像分類、物体検出、頑健性ベンチマークで評価し、一般化と効率向上を評価する。
提案手法
- ViT用のプーリング層を設計し、2Dトークンマップを3Dテンソルに整形し、深さwise畳み込みベースの空間削減とチャネル拡張を適用し、再度2Dトークンへ整形する。
- PiTに2つのプーリング層を組み込み、3つの空間スケールを作成し、チャネル拡張はマルチヘッド注意のヘッド数を増やすことで実装。
- ViTに対応するスケール(tiny, small, base)でPiTのバリアントを構築し、FLOPs/パラメータを調整してViTと競合させつつレイテンシを低減。
- ImageNet-1k で vanilla、CutMix、DeiT、Distillation 学習 regimes の下で PiT と ViT を比較する。
- エントロピーと空間距離を用いてアテンションパターンを分析し、PiT が層を横断してトークンの相互作用をどのように再構成するかを理解する。
- COCOのDeformable DETR のバックボーンとしてPiTを評価し、ImageNetベンチマークで頑健性を評価する。
![Figure 1 : Schematic illustration of dimension configurations of networks. We visualize ResNet50 [ 13 ] , Vision Transformer (ViT) [ 9 ] , and our Pooling-based Vision Transformer (PiT); (a) ResNet50 gradually downsamples the features from the input to the output; (b) ViT does not change the spatial](https://ar5iv.labs.arxiv.org/html/2103.16302/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1CNN風の空間次元削減を Vision Transformers に適用するとモデル能力と一般化が向上するか?
- RQ2プーリングベースの ViT (PiT) は画像分類、物体検出、頑健性ベンチマークで ViT を上回るか?
- RQ3PiT のプーリングが ViT と比較してアテンションパターンに及ぼす影響は何で、それが性能と頑健性とどう関連するか?
- RQ4スケールを超えて PiT は精度、 throughput、 latency の点で畳み込みバックボーンと競合できるか?
- RQ5長期学習や高解像度ファインチューニングなど拡張トレーニング regime で PiT はどう振る舞うか?
主な発見
- PiTは複数のImageNetトレーニング regime でViTを一般的に上回り、より高い精度をFLOPsが低い状態で達成し、しばしばスループットも向上する。
- ImageNetではPiT-Bが84.0%、ViT-Bが83.4%と同様の設定で; PiT-Sもいくつかの設定でViT-Sを上回る。
- PiTはモデルサイズが大きくなると改善し、ViTの大規模スケールで観測される一般化ギャップと標準学習テクニック下のギャップを緩和する。
- COCOのDeformable DETR のバックボーンとしてPiTは ViT-S より高い AP(39.4 vs 36.9)、レイテンシも競争力がある。
- ロバスト性ベンチマークではPiT-Sは標準、Occ、IN-A、BGC、FGSM テストでViT-Sより一貫して改善。
- 全体として、PiTはViTへプーリングベースの空間削減を導入することで、性能と頑健性を向上させつつ、効率性の妥協点を有利に達成できることを示している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。