QUICK REVIEW

[論文レビュー] An End-to-End Network for Panoptic Segmentation

Huanyu Liu, Chao Peng|arXiv (Cornell University)|Mar 12, 2019

Advanced Neural Network Applications参考文献 47被引用数 22

ひとこと要約

この論文では、オクルージョンに配慮したエンドツーエンドのネットワークOANetを提案する。このモデルは、共有バックボーン特徴量と、重なったオブジェクト予測を解消するための新規な空間順序モジュールを用いて、インスタンスセグメンテーションとスタッフセグメンテーションを1つのモデルで統合する。本手法は、ResNet-101を用いたCOCOパノプティックセグメンテーションベンチマークで、test-devセットで41.3のPQスコアを達成し、最先端の性能を発揮した。

ABSTRACT

Panoptic segmentation, which needs to assign a category label to each pixel and segment each object instance simultaneously, is a challenging topic. Traditionally, the existing approaches utilize two independent models without sharing features, which makes the pipeline inefficient to implement. In addition, a heuristic method is usually employed to merge the results. However, the overlapping relationship between object instances is difficult to determine without sufficient context information during the merging process. To address the problems, we propose a novel end-to-end network for panoptic segmentation, which can efficiently and effectively predict both the instance and stuff segmentation in a single network. Moreover, we introduce a novel spatial ranking module to deal with the occlusion problem between the predicted instances. Extensive experiments have been done to validate the performance of our proposed method and promising results have been achieved on the COCO Panoptic benchmark.

研究の動機と目的

インスタンスセグメンテーションとスタッフセグメンテーションに別々のモデルを用いる従来のパノプティックセグメンテーションパイプラインにおける非効率性とヒューリスティックなマージ処理の問題を解決すること。
統合されたネットワークアーキテクチャにおいてインスタンスとスタッフセグメンテーションのブランチ間で特徴量を共有することで、計算コストを低減すること。
重なったオブジェクト予測の曖昧さを解消するために、インスタンスの空間的順序を学習し、適切なセグメンテーション割り当てをガイドすること。
後処理によるマージを一切行わず、両方のセグメンテーションタスクを同時に最適化できる学習可能でエンドツーエンドのトレーニングプロセスを可能にすること。
コンテキストに配慮したインスタンス順序付けを統合することで、COCOパノプティックセグメンテーションベンチマークにおける性能を向上させること。

提案手法

インスタンスとスタッフセグメンテーションを、ResNet-50またはResNet-101を共有バックボーンとして統合した1つのネットワークに統合し、それぞれのタスク用に分離されたヘッドブランチを設ける。
両方のタスクからの監視信号を統合した損失関数を用いて、エンドツーエンドでネットワークを学習させ、共有特徴量の共同最適化を可能にする。
空間的コンテキストに基づいて各インスタンスの順位スコアを予測する空間順序モジュールを導入し、オクルージョンによる曖昧さを解消する。
長距離コンテキストを正確に捉えるために、大きな受容 field を持つ1×7および7×1の畳み込み層を用いた空間順序モジュールを設計する。
予測された順位スコアを用いて、重なったピxlsにどのインスタンスを割り当てるかを決定し、ヒューリスティックなマージ処理を置き換える。
特徴表現を強化し、検出品質を向上させるために、FPNの特徴ピラミッドからのスキップ接続を適用する。

実験結果

リサーチクエスチョン

RQ1共有特徴量を用いてインスタンスセグメンテーションとスタッフセグメンテーションを統合したエンドツーエンドのネットワークは、計算コストを削減できるか？
RQ2ヒューリスティックな後処理に依存せずに、オブジェクトインスタンス間の重なった予測をどのように解消できるか？
RQ3セグメンテーションヘッド間での特徴量共有が、全体のパノプティックセグメンテーション性能に与える影響は何か？
RQ4スコアベースのヒューリスティックと比較して、学習可能な空間順序メカニズムは、オクルージョン領域での予測精度を向上させられるか？
RQ5提案手法は、COCOパノプティックセグメンテーションベンチマークで最先端の性能を達成できるか？

主な発見

OANetは、COCO 2018のtest-devセットで41.3のPQスコアを達成し、以前の最先端手法を上回った。
空間順序モジュールの導入により、エンドツーエンドベースラインと比較してPQが1.8%向上し、PQ^Thは2.9%向上した。これは、インスタンスレベルのオクルージョンをより適切に処理できることを示している。
インスタンスとスタッフセグメンテーションヘッド間の特徴量共有により、ResNet-50ではPQが0.7ポイント、ResNet-101でも0.7ポイント向上した。これは、共有表現の利点を示している。
空間順序モジュールに1×7および7×1の畳み込み層（大きな受容 field）を用いることで、1×1や3×3のカーネルよりも優れた性能が得られ、PQスコアは39.0に達した。
訓練時に真値を重ならないアノテーションに置き換えても性能向上が見られず、むしろ劣化する傾向にあった。これは、ネットワークが現実の重なったケースから学習することで恩恵を受けることを示している。
可視化結果から、空間順序モジュールが重なったインスタンスに対して適切に優先順位を割り当てていることが確認された（例：混雑したシーンで、人をネクタイよりも優先して処理）。ヒューリスティック手法では失敗する状況でも、本手法は正しく動作した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。