QUICK REVIEW

[論文レビュー] Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentation

Zhen-Liang Ni, Xinghao Chen|arXiv (Cornell University)|May 10, 2024

Advanced Image and Video Retrieval Techniques被引用数 6

ひとこと要約

CGRSegはRectangular Self-Calibration ModuleとDynamic Prototype Guided headを導入し、4.0 GFLOPsでADE20Kにおいて43.6%のmIoUを達成する、効率的でピラミッド文脈を活用したセマンティックセグメンテーション。

ABSTRACT

Semantic segmentation is an important task for numerous applications but it is still quite challenging to achieve advanced performance with limited computational costs. In this paper, we present CGRSeg, an efficient yet competitive segmentation framework based on context-guided spatial feature reconstruction. A Rectangular Self-Calibration Module is carefully designed for spatial feature reconstruction and pyramid context extraction. It captures the axial global context in both horizontal and vertical directions to explicitly model rectangular key areas. A shape self-calibration function is designed to make the key areas closer to foreground objects. Besides, a lightweight Dynamic Prototype Guided head is proposed to improve the classification of foreground objects by explicit class embedding. Our CGRSeg is extensively evaluated on ADE20K, COCO-Stuff, and Pascal Context benchmarks, and achieves state-of-the-art semantic performance. Specifically, it achieves $43.6\%$ mIoU on ADE20K with only $4.0$ GFLOPs, which is $0.9\%$ and $2.5\%$ mIoU better than SeaFormer and SegNeXt but with about $38.0\%$ fewer GFLOPs. Code is available at https://github.com/nizhenliang/CGRSeg.

研究の動機と目的

効率的なセマンティックセグメンテーションを、限られた計算リソースで実現する。
前景の局在化とピラミッド文脈抽出を強化するモジュールを設計する。
境界の描画とクラス識別を改善する軽量コンポーネントを開発する。
FLOPsを削減した状態でADE20K、COCO-Stuff、Pascal Contextで最先端の性能を示す。

提案手法

ピラミッド文脈抽出、空間特徴再構成、軽量ヘッドを備えるCGRSegフレームワークを提案する。
Rectangular Self-Calibration Module (RCM)を導入して横方向・縦方向のプーリングを介して軸全体の文脈を捕捉し、大カーネルストリップ畳み込みで自己較正を形状化する。
形状自己較正機能を適用してアテンション領域を前景特徴に合わせる。
ローカルディテール強化フュージョン経路を用いてアテンション特徴と入力特徴を融合する。
Dynamic Prototype Guided (DPG) headを開発してクラス情報を埋め込み、画像特有のクラス識別のためのダイナミックプロトタイプを計算する。
重ね合わせたRCMを用いたピラミッド特徴の相互作用を活用し、ダウンサンプリングされたマルチスケール特徴からピラミッド文脈(P)を形成する。
デコーダ特徴とクラス埋め込みを射影してピクセルレベルの表現を洗練し、前景分類を改善する。

実験結果

リサーチクエスチョン

RQ1軽量なセグメンテーションバックボーンにおいて、前景中心の文脈を効率的にモデリングするにはどうすべきか？
RQ2直交軸指向の矩形アテンション機構は、伝統的なアテンションブロックよりもピラミッド文脈を効果的に捕捉できるのか？
RQ3ダイナミッククラスプロトタイプは、計算負荷を大幅に増やさずにピクセルごとの識別を改善できるのか？
RQ4ピラミッド文脈抽出と空間特徴再構成を組み合わせた際、標準ベンチマークにどのような影響を与えるか？

主な発見

手法	mIoU	FLOPs(G)	Param(M)	Thp.(Img/s)
DeeplabV3+ (ECCV’18)	34.0	69.4	15.4	63.0
Segformer-B0 (NeurIPS’21)	37.4	8.4	3.8	117.1
FeedFormer-B0 (AAAI’23)	39.2	7.8	4.5	110.3
SegNeXt-T (NeurIPS’22)	41.1	6.6	4.3	123.5
Seaformer-L (ICLR’23)	42.7	6.5	14.0	142.3
PEM-STDC1 (CVPR’24)	39.6	16.0	17.0	-
CGRSeg-T (Ours)	43.6	4.0	9.4	138.4
DeeplabV3+ ECCV’18	44.1	255.1	62.7	21.6
EncNet (CVPR’18)	44.7	218.8	68.6	23.4
CCNet (ICCV’19)	45.2	278.4	68.9	23.2
Segformer-B1 (NeurIPS’21)	42.2	15.9	13.7	96.0
SegNeXt-S (NeurIPS’22)	44.3	15.9	13.9	91.1
FeedFormer-B1 (AAAI’23)	41.0	10.0	4.6	87.2
PEM-STDC2 (CVPR’24)	45.0	19.3	21.0	-
CGRSeg-B (Ours)	45.5	7.6	18.1	98.4
Segformer-B2 (NeurIPS’21)	46.5	62.4	27.5	70.4
SegNeXt-B (NeurIPS’22)	47.7	74.0	63.0	-
FeedFormer-B2 (AAAI’23)	48.0	42.7	29.1	56.9
LRFormer-T (arXiv’23)	46.7	17.0	13.0	-
CGRSeg-L (Ours)	48.3	14.9	35.7	73.0

CGRSegは4.0 GFLOPs（tiny model）でADE20Kにおいて43.6% mIoUを達成する。
CGRSeg-TはADE20KでSeaFormerとSegNeXtを上回り、GFLOPsを大幅に抑えつつそれぞれ0.9%と2.5%のmIoU向上を得ている。
CGRSeg-BおよびCGRSeg-Lは、モデル間で競合的なFLOPsにもかかわらずより高いmIoU（それぞれ45.5%と48.3%）を達成している。
COCO-Stuffでは、CGRSeg-Tが4.0 GFLOPsで42.2% mIoU、CGRSeg-Lは14.9 GFLOPsで46.0% mIoU。
Pascal Contextでは、CGRSeg-Tが4.0 GFLOPsで54.1% mIoU、CGRSeg-Lは14.9 GFLOPsで58.5% mIoU。
アブレーション研究により、RCMとDPG Headが相加的な利得を生み出すことが示される：基準は40.86% mIoUで、RCM(PCE) + RCM(SFR) + DPG Headを加えると43.60% mIoUとなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。