[論文レビュー] Hierarchical Multi-Scale Attention for Semantic Segmentation
この論文は階層的多スケール注意機構を導入し、マルチスケールのセマンティックセグメンテーション予測を統合することで、推論時のメモリ効率と柔軟性を保ちながら精度を向上させる。CityscapesとMapillary Vistasで最先端の結果を達成し、Cityscapesではハードオートラベリングを利用する。
Multi-scale inference is commonly used to improve the results of semantic segmentation. Multiple images scales are passed through a network and then the results are combined with averaging or max pooling. In this work, we present an attention-based approach to combining multi-scale predictions. We show that predictions at certain scales are better at resolving particular failures modes, and that the network learns to favor those scales for such cases in order to generate better predictions. Our attention mechanism is hierarchical, which enables it to be roughly 4x more memory efficient to train than other recent approaches. In addition to enabling faster training, this allows us to train with larger crop sizes which leads to greater model accuracy. We demonstrate the result of our method on two datasets: Cityscapes and Mapillary Vistas. For Cityscapes, which has a large number of weakly labelled images, we also leverage auto-labelling to improve generalization. Using our approach we achieve a new state-of-the-art results in both Mapillary (61.1 IOU val) and Cityscapes (85.1 IOU test).
研究の動機と目的
- スケール間の詳細とグローバルコンテクストのトレードオフを動機づけ、解決する。
- ピクセルレベルで隣接スケールを重み付けすることを学習するメモリ効率の良い注意機構を開発する。
- retraining せずに可変スケールでの柔軟な推論を可能にする。
- coarse 画像のオートラベリングを通じて Cityscapes の一般化を改善する。
- Cityscapes と Mapillary Vistas で最先端の性能を示す。
提案手法
- 隣接スケール間の相対注意を予測する階層的注意機構を導入し、全スケールごとの注意マスクを直接予測する従来手法を置換する。
- 訓練時には隣接スケールペア(例:r=1.0 および r=0.5)で訓練し、推論時に注意を連鎖させてNスケールを統合する。
- 共有ネットワークトランクに分離したセマンティックヘッドと注意ヘッドを用い、ピクセル単位の乗算と加算を介して注意マスクを適用しマルチスケール予測を融合する。
- コースCityscapes画像のハードオートラベリングを採用して、密で効率的なラベルを生成し一般化を改善する。
- DelOp DeepLab V3+ スタイルのバックボーン(ResNet-50 または HRNet-OCR)を用い、ランダムスケーリング拡張とクラスバランスサンプリングで訓練する。
- Cityscapes と Mapillary Vistas で、平均化および明示的注意ベースラインと比較して評価する。
実験結果
リサーチクエスチョン
- RQ1階層的な隣接スケール注意は、完全なマルチスケール注意マスクを置換して精度を維持または向上できるか?
- RQ2訓練スケールを超える未知のスケールでも柔軟な推論を可能にすると性能は retraining なしで向上するか?
- RQ3Cityscapes の一般化と IoU スコアに対するハードオートラベリングの影響は?
- RQ4階層的注意のメモリと訓練効率は、明示的なマルチスケール注意法と比較してどうか?
- RQ5階層的注意とオートラベリングを組み合わせたとき、Cityscapes と Mapillary Vistas のパフォーマンスはどの程度向上するか?
主な発見
| Method | Eval scales (r) | IOU | FLOPS (relative) | Minibatch training time (sec) |
|---|---|---|---|---|
| Single Scale | 1.0 | 47.7 | 1.00 x | 0.80 |
| AvgPool | 0.5,1.0,2.0 | 49.4 | 1.00 x | 0.80 |
| AvgPool | 0.25,0.5,1.0,2.0 | 48.7 | 1.00 x | 0.80 |
| Explicit | 0.5,1.0,2.0 | 51.4 | 5.25 x | 3.08 |
| Hierarchical (Ours) | 0.5,1.0,2.0 | 51.6 | 1.25 x | 1.17 |
| Hierarchical (Ours) | 0.25,0.5,1.0,2.0 | 52.2 | 1.25 x | 1.17 |
- 階層的な多スケール注意は、Mapillary の IoU が 51.6、Cityscapes の IoU が 85.1(テスト)で、単一スケールおよび平均プーリングベースラインより高い。
- 0.25x スケールを階層的注意と組み合わせると Mapillary の IoU が 0.6、Cityscapes が再訓練不要でより細かなディテールを実現。
- 階層的手法はよりメモリ効率がよく、単一スケールのトレーニング FLOPs の 1.25x を要求し、追加スケールでの柔軟推論をサポート。
- コース Cityscapes 画像のハードオートラベリングは、ベースラインに対する Cityscapes の IoU を約 1.1 ポイント改善し、階層的注意と組み合わせた場合に総合的なゲインをもたらす。
- 本手法は検証/テストで Cityscapes(IoU 85.1)および Mapillary Vistas(IoU 61.1)で最先端の結果を達成。
- アブレーションは、マルチスケール注意が標準の HRNet-OCR ベースラインよりゲインを生み出し、MS Attention とオートラベリングの組み合わせが最良の結果を提供することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。