QUICK REVIEW

[論文レビュー] Instance-Level Segmentation for Autonomous Driving with Deep Densely Connected MRFs

Ziyu Zhang, Sanja Fidler|arXiv (Cornell University)|Dec 21, 2015

Advanced Neural Network Applications参考文献 26被引用数 20

ひとこと要約

本論文では、単眼画像からの局所的CNN予測を用いて、自律走行におけるグローバルに一貫したインスタンスレベルのセグメンテーションを達成する、密結合型マルコフ確率場（MRF）を提案する。重複するパッチにおける局所的CNN予測を活用し、パッチレベル出力との整合性、コントラスト感受性の滑らかさ、Pottsポテンシャルによるインスタンス間分離を統合することで、効率的な平均場推論が可能となり、KITTIベンチマークにおいて先行研究を大きく上回る性能向上を達成した。

ABSTRACT

Our aim is to provide a pixel-wise instance-level labeling of a monocular image in the context of autonomous driving. We build on recent work [Zhang et al., ICCV15] that trained a convolutional neural net to predict instance labeling in local image patches, extracted exhaustively in a stride from an image. A simple Markov random field model using several heuristics was then proposed in [Zhang et al., ICCV15] to derive a globally consistent instance labeling of the image. In this paper, we formulate the global labeling problem with a novel densely connected Markov random field and show how to encode various intuitive potentials in a way that is amenable to efficient mean field inference [Krähenbühl et al., NIPS11]. Our potentials encode the compatibility between the global labeling and the patch-level predictions, contrast-sensitive smoothness as well as the fact that separate regions form different instances. Our experiments on the challenging KITTI benchmark [Geiger et al., CVPR12] demonstrate that our method achieves a significant performance boost over the baseline [Zhang et al., ICCV15].

研究の動機と目的

単眼画像における重複するパッチからの局所的で重複するCNN予測から、グローバルに一貫したインスタンスレベルのセグメンテーションを導出する課題に対処すること。
パッチレベルの予測を組み合わせるためにヒューリスティクスや単純なMRFに依存する先行手法の改善を図ること。
離れた画像領域間の長距離依存関係をモデル化することで、異なるインスタンスの融合を防ぐこと。
コントラスト感受性の滑らかさとインスタンス分離制約を組み込むことで、境界予測の正確性を向上させること。
平均場手法と互換性のある定式化を用いて、ピクセルレベルのラベルに対する効率的な推論を可能にすること。

提案手法

パッチ内およびパッチ予測からの遠く離れた連結成分間のすべてのピクセルペアを接続する密結合型MRFを定式化する。
3つの主要なポテンシャルを導入：局所的CNN予測との適合性、コントラスト感受性の滑らかさ、インスタンス分離のためのPottsポテンシャル。
すべてのポテンシャルを、効率的な平均場推論に適した形で表現し、ガウスMRFに関する先行研究を拡張する。
CNNを用いて、サイズが異なる高密度にサンプリングされた画像パッチ上でソフトインスタンスラベルを生成する。
予測の精緻化のため、穴埋め処理、領域の削除・分割といったポストプロセッシングを適用する。特にフルモデルにおいて有効である。
バリデーションセットを用いて、インスタンスレベルF1スコア（InsF1）に基づいてモデルパラメータを選択する。

実験結果

リサーチクエスチョン

RQ1密結合型MRFは、局所的CNN予測をグローバルに一貫したインスタンスラベリングに効果的に統合できるか？
RQ2離れた画像領域間の長距離接続は、セグメンテーションにおけるインスタンス分離をどのように改善するか？
RQ3コントラスト感受性の滑らかさ項は、予測におけるノイズや境界アーチファクトをどの程度低減するか？
RQ4Pottsポテンシャルは、インスタンスの一意性を効果的に強制し、異なる物体の融合を防げるか？
RQ5提案されたMRF定式化は、高い精度を維持しつつ、効率的な推論を可能にするか？

主な発見

すべてのポテンシャルを統合したフルモデルは、ベースライン[32]に対して顕著な性能向上を達成し、特にインスタンスレベルの精度とF1スコアで顕著な向上を示した。
「LocCNNPred+InterConnComp」バージョンは、「LocCNNPred」を上回り、遠く離れたインスタンスに対して異なるラベル付けを促進することで、偽陽性を低減した。
フルモデルにおける滑らかさ項の追加により、特にインスタンス境界付近で見られるノイズが多く散在する領域が低減され、よりクリアな予測が得られた。
ポストプロセッシングによりさらなる性能向上が得られ、フルモデルはKITTIテストセットにおける複数の指標で、すべてのベースラインを上回った。
定性的な結果から、本手法はベースラインと比較して、近接するインスタンスの分離がより良好に実現されていることが示された。
失敗事例は主にCNNの誤分類（例：バンを車と誤認）および重度の隠蔽に起因しており、CNNの一般化能力の限界を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。