[論文レビュー] ResT: An Efficient Transformer for Visual Recognition
ResT は EMSA 注意機構を備えたメモリ効率の高いマルチスケール Vision Transformer ボ backbone を導入し、柔軟な空間位置エンコーディングと重なりパッチ埋め込みを提供することで ImageNet および COCO で強力な結果を達成します。
This paper presents an efficient multi-scale vision Transformer, called ResT, that capably served as a general-purpose backbone for image recognition. Unlike existing Transformer methods, which employ standard Transformer blocks to tackle raw images with a fixed resolution, our ResT have several advantages: (1) A memory-efficient multi-head self-attention is built, which compresses the memory by a simple depth-wise convolution, and projects the interaction across the attention-heads dimension while keeping the diversity ability of multi-heads; (2) Position encoding is constructed as spatial attention, which is more flexible and can tackle with input images of arbitrary size without interpolation or fine-tune; (3) Instead of the straightforward tokenization at the beginning of each stage, we design the patch embedding as a stack of overlapping convolution operation with stride on the 2D-reshaped token map. We comprehensively validate ResT on image classification and downstream tasks. Experimental results show that the proposed ResT can outperform the recently state-of-the-art backbones by a large margin, demonstrating the potential of ResT as strong backbones. The code and models will be made publicly available at https://github.com/wofmanaf/ResT.
研究の動機と目的
- CNN の局所性と Transformer の全体推論を組み合わせた、画像認識のための汎用的なバックボーンアーキテクチャを開発する。
- マルチヘッドの多様性を保ちながら、自己注意のメモリ消費と計算コストを削減する。
- 密集予測タスクのための柔軟な入力サイズとマルチスケール特徴マップを実現する。
- ImageNet-1k の分類と物体検出・インスタンス分割などの下流タスクで ResT を検証する。
- 同等のモデルサイズで ResT が同等のバックボーンより性能が優れていることを示す。
提案手法
- 深さ方向畳み込みを用いて空間トークンを圧縮し、注意ヘッド間の相互作用を投影する Efficient Multi-head Self-Attention (EMSA) を導入する。
- 固定パッチトークン化を重なり合う畳み込みベースのパッチ埋め込みに置換し、マルチスケール特徴ピラミッドを構築する。
- 位置エンコーディングを空間注意(PA)として定義し、補間やファインチューニングなしに可変入力サイズに対応する。
- EMSA 内に 1×1 畳み込みと Instance Normalization を組み込み、ヘッド多様性を回復し訓練を安定化させる。
- 段階的なパッチ埋め込みを用いてチャネル次元を段階的に増やし空間解像度を低減させ、ResT 系バックボーンを形成する。
- 下流フレームワークで事前正規化を採用し、ImageNet-1k 評価のための単純なグローバル平均プーリング分類器を使用する。
実験結果
リサーチクエスチョン
- RQ1性能を犠牲にすることなく、Vision Transformer バックボーンの自己注意をどのようにメモリ効率良くできるか?
- RQ2空間条件付き位置エンコーディングは、密集予測のための柔軟な入力サイズとマルチスケール表現を実現できるか?
- RQ3重なりパッチ埋め込みは、標準のトークン化と比べて低レベル特徴の捕捉と全体的な精度を改善するか?
- RQ4同等コストのバックボーンと比較して、ImageNet-1k および COCO の物体検出/インスタンス分割における ResT バックボーンの性能向上はどの程度か?
主な発見
| モデル | パラメータ数 (M) | FLOPs (G) | スループット (画像/秒) | Top-1 (%) | Top-5 (%) |
|---|---|---|---|---|---|
| ResT-Lite | 10.49 | 1.4 | 1246 | 77.2 (↑7.5) | 93.7 (↑4.6) |
| ResT-Small | 13.66 | 1.9 | 1043 | 79.6 (↑9.9) | 94.9 (↑5.8) |
| ResT-Base | 30.28 | 4.3 | 673 | 81.6 (↑2.6) | 95.7 (↑1.3) |
| ResT-Large | 51.63 | 7.9 | 429 | 83.6 (↑3.3) | 96.3 (↑1.1) |
- ResT-Small は ImageNet-1k で 79.6% Top-1 精度、1.9G FLOPs、13.66M パラメータを達成。
- ResT-Large は 83.6% Top-1 精度、7.9G FLOPs、51.63M パラメータを達成し、同等価格帯の Swin variant を上回る。
- COCO 物体検出の RetinaNet で、ResT-Small は PVT-T より AP を 3.6 ポイント改善(40.3 対 36.7)。
- COCO 物体検出の RetinaNet で、ResT-Base は PVT-S より AP を 1.6 ポイント改善(42.0 対 40.4)。
- ResT-Large は Mask RCNN ベースのインスタンス分割で顕著な性能向上を示す(APbox 41.6, APmask 38.7、PVT-S および Swin 系と同等予算と比較)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。