QUICK REVIEW

[論文レビュー] Panoptic-DeepLab: A Simple, Strong, and Fast Baseline for Bottom-Up Panoptic Segmentation

Bowen Cheng, Maxwell D. Collins|arXiv (Cornell University)|Nov 22, 2019

Advanced Neural Network Applications参考文献 81被引用数 42

ひとこと要約

Panoptic-DeepLab は、クラス非依存のインスタンス中心とセマンティックヘッドを備えた、シンプルなボトムアップのワンショットパンオプティック分割システムを提供し、Cityscapes、Mapillary Vistas、COCO で最先端の結果を達成しつつほぼリアルタイムで動作します。

ABSTRACT

In this work, we introduce Panoptic-DeepLab, a simple, strong, and fast system for panoptic segmentation, aiming to establish a solid baseline for bottom-up methods that can achieve comparable performance of two-stage methods while yielding fast inference speed. In particular, Panoptic-DeepLab adopts the dual-ASPP and dual-decoder structures specific to semantic, and instance segmentation, respectively. The semantic segmentation branch is the same as the typical design of any semantic segmentation model (e.g., DeepLab), while the instance segmentation branch is class-agnostic, involving a simple instance center regression. As a result, our single Panoptic-DeepLab simultaneously ranks first at all three Cityscapes benchmarks, setting the new state-of-art of 84.2% mIoU, 39.0% AP, and 65.5% PQ on test set. Additionally, equipped with MobileNetV3, Panoptic-DeepLab runs nearly in real-time with a single 1025x2049 image (15.8 frames per second), while achieving a competitive performance on Cityscapes (54.1 PQ% on test set). On Mapillary Vistas test set, our ensemble of six models attains 42.7% PQ, outperforming the challenge winner in 2018 by a healthy margin of 1.5%. Finally, our Panoptic-DeepLab also performs on par with several top-down approaches on the challenging COCO dataset. For the first time, we demonstrate a bottom-up approach could deliver state-of-the-art results on panoptic segmentation.

研究の動機と目的

主要なベンチマークで2段階法と同等またはそれを上回る、堅牢なボトムアップのパンオプティック分割ベースラインを確立する。
セマンティックとインスタンス分割のためのデュアルASPPおよびデュアルデコーダーブランチを備えた、シンプルで強力なアーキテクチャを提案する。
クラス非依存のインスタンスセンター回帰アプローチを使用して、高速で並列化可能なインスタンスグルーピングを実現する。
効率的な多数決マージ戦略によってセマンティックとインスタンスの予測を融合する。
複数のデータセットに渡って強力な速度と精度のトレードオフを示す。

提案手法

アトラス畳み込みを強化した共有エンコーダー・バックボーンを採用し、密な特徴を生成する。
セマンティック分割用とクラス非依存のインスタンス分割用のデュアルASPPおよびデュアルデコーダーモジュールを実装する。
セマンティック分割には加重ブートストラップクロスエントロピー、インスタンスセンターのヒートマップにはMSE、センターオフセットにはL1の3つの損失で訓練する。
各インスタンスをそのセンターで表現し、画素からそれぞれのセンターへのオフセットを学習する（センターのヒートマップは2Dガウスで符号化）。
推論時には前景画素を最も近い予測センターにグループ化し、セマンティックとインスタンスの出力を高速な多数決操作で統合する。
単純で並列化可能なマージ手順でエンドツーエンドのパンオプティック予測を達成し、ほぼリアルタイム性能を実現する。）

実験結果

リサーチクエスチョン

RQ1ボトムアップ型のシングルショット手法は、標準のパンオプティックベンチマークで最先端の性能を達成できるか？
RQ2Panoptic-DeepLab の Cityscapes、Mapillary Vistas、COCO における性能と効率のトレードオフは？
RQ3シンプルなセンターベースのインスタンスグルーピングを伴うデュアルブランチ設計（セマンティックとインスタンス）は、上から下への手法と比較して精度と速度の点でどうか？
RQ4アーキテクチャの選択（デュアルASPP、デュアルデコーダ、チャネルサイズ）がセグメンテーション品質とランタイムに与える影響は？

主な発見

Cityscapes では、Panoptic-DeepLab の単一モデルが最先端を達成: PQ 65.5%、AP 39.0%、および mIoU 84.2% をテストセットで。
Mapillary Vistas では、単一モデルが val で PQ 40.6% を達成し、6 モデルのアンサンブルで val 42.2%、test で 42.7% PQ、2018 チャレンジ優勝者を 1.5% PQ 上回る。
COCO test-dev では、Panoptic-DeepLab は 41.2% PQ（単一スケール）を達成し、従来の最高のボトムアップ手法を 4.5% PQ 上回り、トップダウン手法と競合する。
MobileNetV3 バックエンドで、Panoptic-DeepLab は V100 GPU 上で 1025x2049 画像を 15.8 フレーム/秒でほぼリアルタイム推論を実現し、Cityscapes の性能（テストで 54.1 PQ）と競合。
バックボーンとスケールを超えて、速度と精度の強力なトレードオフを示し、従来のボトムアップ手法をしばしば上回り、いくつかのベンチマークでトップダウン手法に近づく。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。