Skip to main content
QUICK REVIEW

[論文レビュー] Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention

Haotian Yan, Chuang Zhang|arXiv (Cornell University)|Jan 5, 2022
Advanced Neural Network Applications被引用数 48
ひとこと要約

Lawin Transformer は large window attention および LawinASPP デコーダを導入し、 semantic segmentation ViTs にマルチスケール表現を注入します。Cityscapes、ADE20K、COCO-Stuff で最先端の結果を達成し、効率も向上します。

ABSTRACT

Multi-scale representations are crucial for semantic segmentation. The community has witnessed the flourish of semantic segmentation convolutional neural networks (CNN) exploiting multi-scale contextual information. Motivated by that the vision transformer (ViT) is powerful in image classification, some semantic segmentation ViTs are recently proposed, most of them attaining impressive results but at a cost of computational economy. In this paper, we succeed in introducing multi-scale representations into semantic segmentation ViT via window attention mechanism and further improves the performance and efficiency. To this end, we introduce large window attention which allows the local window to query a larger area of context window at only a little computation overhead. By regulating the ratio of the context area to the query area, we enable the $ extit{large window attention}$ to capture the contextual information at multiple scales. Moreover, the framework of spatial pyramid pooling is adopted to collaborate with $ extit{the large window attention}$, which presents a novel decoder named $ extbf{la}$rge $ extbf{win}$dow attention spatial pyramid pooling (LawinASPP) for semantic segmentation ViT. Our resulting ViT, Lawin Transformer, is composed of an efficient hierachical vision transformer (HVT) as encoder and a LawinASPP as decoder. The empirical results demonstrate that Lawin Transformer offers an improved efficiency compared to the existing method. Lawin Transformer further sets new state-of-the-art performance on Cityscapes (84.4% mIoU), ADE20K (56.2% mIoU) and COCO-Stuff datasets. The code will be released at https://github.com/yan-hao-tian/lawin

研究の動機と目的

  • semantic segmentation ViTs に多スケールの文脈情報を統合する動機付けを行い、精度と効率を向上させる。
  • 計算コストを制御して文脈照会を拡張する large window attention メカニズムの開発。
  • 軽量デコーダと多スケールの文脈情報を融合する LawinASPP の設計。
  • 標準的な semantic segmentation ベンチマークで Lawin Transformer を評価し、最先端の ViT ベースおよび CNN ベースの手法と比較する。

提案手法

  • クエリパッチが比率 R でスケールされたコンテキストパッチに注意を向ける large window attention を導入し、複雑さを維持するためにプーリングを行う。
  • プーリング後の依存関係を回復するため、ヘッド数を R^2 に設定したマルチヘッドアテンションを使用する。
  • MLP-Mixer に触発された、各ヘッドごとに位置混合 MLP を適用して、コンテキストパッチ内の空間表現を強化する。
  • 標準デコーダを LawinASPP に置換。LawinASPP は Spatial Pyramid Pooling の変種で、R=(2,4,8) の large window attentions を持つブランチと画像プーリングブランチを組み合わせる。
  • LawinASPP を階層型ビジョン・トランスフォーマー・エンコーダ(MiT または Swin)と統合し、最終予測のために低レベルの初期特徴と多段階特徴を融合する。

実験結果

リサーチクエスチョン

  • RQ1large window attention が semantic segmentation ViTs において効率的に多スケールの文脈情報を捉えることができるか。
  • RQ2LawinASPP は既存のデコーダよりも多スケール表現と最終的なセグメンテーション性能を改善するか。
  • RQ3Pooling ratio R、ヘッド数、large window attention における position- vs channel-mixing の精度と効率への影響はどのようか。
  • RQ4Lawin Transformer は Cityscapes、ADE20K、COCO-Stuff において最先端の ViT ベースおよび CNN ベースの手法とどのように比較されるか。

主な発見

  • Lawin Transformer は SegFormer および Swin-UperNet と比較して、variant によって FLOPs が低いまたは同等でありながら mIoU を改善。
  • Lawin-B4 および Lawin-B5 の variant は、ADE20K と Cityscapes で計算量を削減しつつ mIoU の利得を示す。
  • LawinASPP は ADE20K において mIoU で ASPP、PPM、SEP-ASPP を上回りつつ、FLOPs を競合的に維持。
  • Position-mixing MLP は large window attention における混合戦略の中で最も利点を提供し、channel-mixing アプローチを上回る。
  • このフレームワークは Cityscapes(Swin-L エンコーダーで 84.4% mIoU)、ADE20K(MiT-B5 で 53.0% mIoU;Swin-L で 84.4% mIoU)、COCO-Stuff(MiT-B5 で 47.5% mIoU)で最先端の結果を得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。