[論文レビュー] Shuffle Transformer: Rethinking Spatial Shuffle for Vision Transformer
Shuffle Transformerを提案。空間シャッフルを用いてウィンドウベースのVision Transformer間のクロスウィンドウ通信を実現し、隣接ウィンドウ畳み込みを追加。線形トークン複雑度で分類・分割・検出の強力な結果を達成。
Very recently, Window-based Transformers, which computed self-attention within non-overlapping local windows, demonstrated promising results on image classification, semantic segmentation, and object detection. However, less study has been devoted to the cross-window connection which is the key element to improve the representation ability. In this work, we revisit the spatial shuffle as an efficient way to build connections among windows. As a result, we propose a new vision transformer, named Shuffle Transformer, which is highly efficient and easy to implement by modifying two lines of code. Furthermore, the depth-wise convolution is introduced to complement the spatial shuffle for enhancing neighbor-window connections. The proposed architectures achieve excellent performance on a wide range of visual tasks including image-level classification, object detection, and semantic segmentation. Code will be released for reproduction.
研究の動機と目的
- ウィンドウベースのビジョン・トランスフォーマーにおける効率的なクロスウィンドウ通信を動機づける。
- 非重複ウィンドウを接続する空間シャッフル機構を提案する。
- 隣接ウィンドウの相互作用を深層畳み込みモジュールで強化する。
- 情報の流れを改善するため、空間シャッフルの有無で交互に配置されたShuffle Transformerブロックを作成する。
- 画像分類、セマンティック/インスタンス分割、物体検出のすべてで強力な性能を示す。
提案手法
- 入力サイズの線形複雑度を達成するためにウィンドウベースの自己注意を採用する。
- 遠方ウィンドウ間の情報を結合する空間シャッフルを導入し、内容配置を元に復元する逆空間整列を適用する。
- WMSAとMLPの間に残差付きの深度-wise畳み込みを組み込み、隣接ウィンドウの相互作用を強化する。
- Shuffle-MHSA、Neighbor-Window Connection、MLPを組み合わせたShuffle Transformer Blockを定義し、レイヤー間で通常のWMSAとShuffle-WMSAの交互配置をとる。
- LayerNormをBatchNormに置換し、2D互換性のある一部レイヤーで1x1畳み込みを使用する。
- Shuffle-T、Shuffle-S、Shuffle-Bの派生モデルを提供し、Swinベースのバックボーンと同等のFLOPsを実現する。
実験結果
リサーチクエスチョン
- RQ1空間シャッフルは非重複ウィンドウの自己注意において効果的なクロスウィンドウ通信を可能にするか。
- RQ2隣接ウィンドウ畳み込みを追加することで局所的なクロスウィンドウ相互作用を改善し、グリッド問題を緩和できるか。
- RQ3Shuffle Transformerブロックは効率と精度の点で既存のウィンドウベースのトランスフォーマーと比べてどうか。
- RQ4Shuffle Transformerバックボーンを使用した場合、ImageNet、ADE20K、COCOでのパフォーマンス向上はどの程度か。
主な発見
| Backbone | AP_b | AP_b50 | AP_b75 | AP_m | AP_m50 | AP_m75 | Params | GFLOPs |
|---|---|---|---|---|---|---|---|---|
| Mask R-CNN, ResNet50 | 41.0 | 61.7 | 44.9 | 37.1 | 58.4 | 40.1 | 260M | 260 |
| Mask R-CNN, PVT-Small | 43.0 | 65.3 | 46.9 | 39.9 | 62.5 | 42.8 | 44M | 245 |
| Mask R-CNN, Swin-T | 46.0 | 68.2 | 50.2 | 41.6 | 65.1 | 44.8 | 264M | 264 |
| Mask R-CNN, Shuffle-T (ours) | 46.8 | 68.9 | 51.5 | 42.3 | 66.0 | 45.6 | 268M | 268 |
| Cascade Mask R-CNN, DeiT-S | 48.0 | 67.2 | 51.7 | 41.4 | 64.2 | 44.3 | 80M | 889 |
| Cascade Mask R-CNN, Swin-T | 50.5 | 69.3 | 54.9 | 43.7 | 66.6 | 47.1 | 86M | 745 |
| Cascade Mask R-CNN, Shuffle-T (ours) | 50.8 | 69.6 | 55.1 | 44.1 | 66.9 | 48.0 | 86M | 746 |
| Cascade Mask R-CNN, ResNet50 | 46.3 | 64.3 | 50.5 | 40.1 | 61.7 | 43.4 | 82M | 739 |
| Cascade Mask R-CNN, Swin-S | 51.9 | 70.4 | 56.3 | 44.7 | 67.3 | 48.6 | 107M | 838 |
| Cascade Mask R-CNN, Shuffle-S (ours) | 51.9 | 70.9 | 56.4 | 44.9 | 67.8 | 48.6 | 107M | 844 |
| Cascade Mask R-CNN, ResNext101-32 | 48.1 | 66.5 | 52.4 | 41.6 | 63.9 | 45.2 | 101M | 819 |
| Cascade Mask R-CNN, Swin-S (baseline) | 51.9 | 70.4 | 56.3 | 44.7 | 67.9 | 48.6 | 107M | 844 |
| Cascade Mask R-CNN, ResNext101-64 | 48.3 | 66.4 | 52.3 | 41.7 | 64.0 | 45.1 | 140M | 972 |
| Swin-B, baseline | 51.9 | 70.9 | 56.5 | 45.0 | 68.4 | 48.7 | 145M | 982 |
| Shuffle-B (ours) | 52.2 | 71.3 | 57.0 | 45.3 | 68.5 | 48.9 | 145M | 989 |
- Shuffle TransformerはSwinと同等の複雑度で最先端に近い結果を達成でき、しばしば精度で上回る。
- ImageNet-1Kで Shuffle-TはTop-1 82.5%、Shuffle-SはTop-1 83.5%(Swin派生と同等のGFLOPs)に達する。
- ADE20Kで Shuffle-Bは50.5% mIoU(マルチスケール)、Shuffle-Tは46.6%、Shuffle-Sは48.4%(Swinベースラインと同等のFLOPsで上回る)。
- COCOのMask R-CNNで Shuffle-TはSwin-Tを上回るAP指標を示す(例:APb 46.8 vs 46.0; APm 42.3 vs 41.6)。
- Cascade Mask R-CNNで Shuffle-T と Shuffle-S は、Swin-T および Swin-S と比較してAPb、APb50、APm などの指標で競争力があるか、あるいは上回る。
- アブレーション研究は、長距離空間シャッフルと隣接ウィンドウ接続の組み合わせが、バニラのウィンドウベース自己注意に対して一貫したゲインをもたらすことを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。