QUICK REVIEW

[論文レビュー] Attention-guided Unified Network for Panoptic Segmentation

Yanwei Li, Xinze Chen|arXiv (Cornell University)|Dec 10, 2018

Visual Attention and Saliency Detection参考文献 46被引用数 24

ひとこと要約

本論文では、パノプティックセグメンテーションのための統合的アテンションガイドドネットワークAUNetを提案する。AUNetは、インスタンスレベル（前面）とセマンティックレベル（背景）のセグメンテーションを同時に最適化する。オブジェクト候補とインスタンスマスクをクロスブランチのアテンション信号として活用することで、前面および背景セグメンテーションの精度が向上し、MS-COCOで46.5%のPQ、Cityscapesで59.0%のPQという最先端の性能を達成した。

ABSTRACT

This paper studies panoptic segmentation, a recently proposed task which segments foreground (FG) objects at the instance level as well as background (BG) contents at the semantic level. Existing methods mostly dealt with these two problems separately, but in this paper, we reveal the underlying relationship between them, in particular, FG objects provide complementary cues to assist BG understanding. Our approach, named the Attention-guided Unified Network (AUNet), is a unified framework with two branches for FG and BG segmentation simultaneously. Two sources of attentions are added to the BG branch, namely, RPN and FG segmentation mask to provide object-level and pixel-level attentions, respectively. Our approach is generalized to different backbones with consistent accuracy gain in both FG and BG segmentation, and also sets new state-of-the-arts both in the MS-COCO (46.5% PQ) and Cityscapes (59.0% PQ) benchmarks.

研究の動機と目的

インスタンスレベル（前面）とセマンティックレベル（背景）のセグメンテーションを、1つのエンドツーエンドフレームワークに統合すること。
前面のオブジェクトと背景のコンテンツの間で補完的な文脈的情報を活用し、セグメンテーションの精度を向上させること。
前面の予測を用いて背景セグメンテーションをガイドするアテンション機構を開発すること。
追加データやモデルアンサンブルに依存せずに、標準ベンチマークで最先端の性能を達成すること。

提案手法

AUNetは、インスタンスセグメンテーションとセマンティックセグメンテーションの2つの並列ブランチを持つ共有バックボーンを採用する。
プロポーザルアテンションモジュール（PAM）は、領域候補を用いて背景ブランチにオブジェクトレベルのアテンションを提供する。
マスクアテンションモジュール（MAM）は、予測されたインスタンスマスクを用いて、背景境界の精緻化のためのピクセルレベルのアテンションを提供する。
独自のRoIUpsampleレイヤーにより、固定サイズのインスタンスマスクと特徴マップ間の正確な特徴マッピングが可能になった。
アテンションモジュールは、前面ブランチから背景ブランチへのスキップ接続として実装され、双方向の勾配伝播を可能にする。
両ブランチが相互に監視を受けることのできる、ジョイント最適化によるエンドツーエンドの学習が行われる。

実験結果

リサーチクエスチョン

RQ1クロスブランチのアテンションを活用することで、統合的ネットワークアーキテクチャが前面および背景セグメンテーションの両方を向上させられるか？
RQ2オブジェクトレベルとピクセルレベルのアテンション機構は、パノプティカルセグメンテーションにおける背景理解をどのように向上させるか？
RQ3特徴の相互作用を通じて、前面インスタンスセグメンテーションの精度が背景セマンティックセグメンテーションにどの程度向上するか？
RQ4統合フレームワークは、パノプティカルベンチマークにおいて、インスタンスおよびセマンティックセグメンテーションヘッドを別々に学習する手法を上回るか？

主な発見

AUNetは、MS-COCOのtest-devで46.5%のPQを達成し、追加データやモデルアンサンブルを一切使用せずに、新たな最先端の性能を樹立した。
Cityscapesでは59.0%のPQを達成し、先行研究の最先端を5.2%の絶対差で上回った。
ResNet-50-FPNやResNet-101-FPNを含む、さまざまなバックボーンにおいて一貫した精度向上を示した。
アブレーションスタディの結果、PAMおよびMAMの両方が性能向上に顕著に寄与しており、特に背景セグメンテーションの向上に寄与していることが確認された。
追加データや複雑な補正を用いないにもかかわらず、COCO 2018パノプティカルチャレンジの優勝者よりもPQ_Stで4.9%高い性能を達成した。
AUNetは、物（things）と素材（stuff）のセグメンテーションのバランスを改善し、PQ_ThおよびPQ_Stの両方が向上した。これは、効果的なジョイント最適化を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。