[論文レビュー] Axial-DeepLab: Stand-Alone Axial-Attention for Panoptic Segmentation
位置感知の軸方向アテンションを導入し、スタンドアロンの軸方向アテンションモデルを構築、COCO、Mapillary Vistas、Cityscapesで最新のパンオプティック分割結果を達成、以前のスタンドアロン自己注意手法に対して強力な効率向上を実現。
Convolution exploits locality for efficiency at a cost of missing long range context. Self-attention has been adopted to augment CNNs with non-local interactions. Recent works prove it possible to stack self-attention layers to obtain a fully attentional network by restricting the attention to a local region. In this paper, we attempt to remove this constraint by factorizing 2D self-attention into two 1D self-attentions. This reduces computation complexity and allows performing attention within a larger or even global region. In companion, we also propose a position-sensitive self-attention design. Combining both yields our position-sensitive axial-attention layer, a novel building block that one could stack to form axial-attention models for image classification and dense prediction. We demonstrate the effectiveness of our model on four large-scale datasets. In particular, our model outperforms all existing stand-alone self-attention models on ImageNet. Our Axial-DeepLab improves 2.8% PQ over bottom-up state-of-the-art on COCO test-dev. This previous state-of-the-art is attained by our small variant that is 3.8x parameter-efficient and 27x computation-efficient. Axial-DeepLab also achieves state-of-the-art results on Mapillary Vistas and Cityscapes.
研究の動機と目的
- 長距離文脈を従来の畳み込み局所性制約なしに効率的にモデリングする動機付け。
- スタンドアロンモデルで大域的受容野を可能にする位置感知型軸方向アテンションを提案。
- 分類とパンオプティック分割のバックボーンとしてAxial-ResNetおよびAxial-DeepLabを実証。
- COCO、Mapillary Vistas、Cityscapesで効率性を改善しつつ最先端性能を示す。
提案手法
- 2D自己注意を順次の高さ軸と幅軸の1D注意(axial-attention)に分解する。
- クエリ、キー、バリュー依存の位置項(r^q、r^k、r^v)を伴う位置感知自己注意を導入。
- ResNetブロックの3x3畳み込みを軸方向アテンション層に置換してAxial-ResNetを形成。
- ストライドを適応させ、ASPPを削除して、Axial-ResNetを segmentation のためのAxial-DeepLabへ変換。
- 分類のためにImageNetで訓練・評価、パンオプティック・インスタンス・セマンティック分割のためにCOCO、Mapillary Vistas、Cityscapesを評価。
- 軸方向アテンションの範囲をspan mで制御;入力サイズを設定してグローバル受容野を実現することが可能;高さと幅の2つの連続した軸方向アテンション層を適用。
実験結果
リサーチクエスチョン
- RQ1スタンドアロンの軸方向アテンションは、完全な2D自己注意よりも低い複雑さでグローバル受容野を達成できるか?
- RQ2位置感知型軸方向アテンションは、従来のスタンドアロン注意手法よりセグメンテーション性能を改善するか?
- RQ3Axial-ResNetとAxial-DeepLabは、パンオプティック、インスタンス、セマンティック分割のベンチマークでボトムアップの最先端と比較してどうか?
- RQ4軸方向アテンションの範囲とモデルサイズが、データセット全体で精度と効率に与える影響は?
- RQ5ASPPなしでバックボーンネットワークに軸方向アテンションを置換することは、競争力のある分割結果を得る上で現実的か?
主な発見
| Method | Backbone | MS | Params | M-Adds | PQ | PQ Th | PQ St |
|---|---|---|---|---|---|---|---|
| DeeperLab | Xception-71 | — | — | 33.8 | — | — | |
| SSAP | ResNet-101 | ✓ | — | — | 36.5 | — | — |
| Panoptic-DeepLab (Xception-71) | Xception-71 | 46.7M | 274.0B | 39.7 | 43.9 | 33.2 | |
| Panoptic-DeepLab (Xception-71) | Xception-71 | ✓ | 46.7M | 3081.4B | 41.2 | 44.9 | 35.7 |
| Axial-DeepLab-S | Axial-ResNet-S | 12.1M | 110.4B | 41.8 | 46.1 | 35.2 | |
| Axial-DeepLab-M | Axial-ResNet-M | 25.9M | 209.9B | 42.9 | 47.6 | 35.8 | |
| Axial-DeepLab-L | Axial-ResNet-L | 44.9M | 343.9B | 43.4 | 48.5 | 35.6 | |
| Axial-DeepLab-L | Axial-ResNet-L | ✓ | 44.9M | 3867.7B | 43.9 | 48.6 | 36.8 |
- Axial-DeepLab-LはCOCO test-devで43.9 PQを達成し、Panoptic-DeepLabを2.7 PQ上回る。
- Single-scale Axial-DeepLab-SはCOCO valでDeeperLabを8.0 PQ上回り、マルチスケールSSAPと単一スケールPanoptic-DeepLabをそれぞれ5.3 PQおよび2.1 PQ上回る。
- Axial-DeepLab-L with MSはCOCO test-devで44.2 PQに達し、下向きベースの手法の中で最先端を達成し、トップダウンのアプローチとの差を縮める。
- Mapillary VistasのバリデーションでAxial-DeepLab-Lは単一スケールおよびマルチスケール設定で最先端を上回る;MVプリトレーニングを用いると、Axial-DeepLab-XLは68.5 PQと44.2 APを達成。
- CityscapesのバリデーションではAxial-DeepLabのバリエーションがResNet-50ベースラインを上回り、より大きなモデルとMSを用いるとPQとmIoUがさらに改善。
- 実験全体を通じて、位置感知を備えた軸方向アテンションは、従来のスタンドアロン注意手法と比較してPQ、AP、mIoUの一貫した向上を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。