Skip to main content
QUICK REVIEW

[論文レビュー] Monocular Object Instance Segmentation and Depth Ordering with CNNs

Ziyu Zhang, Alexander G. Schwing|arXiv (Cornell University)|May 12, 2015
Advanced Vision and Imaging参考文献 38被引用数 34
ひとこと要約

本論文は、1枚のRGB画像からインスタンスレベルのセグメンテーションと奥行き順序を同時に予測するためのCNN-MRFフレームワークを提案する。マルチスケールのパッチ予測とマルコフ確率場(MRF)を用いて、セグメンテーションと奥行き順序を同時に最適化する。KITTIベンチマークにおいて最先端の性能を達成し、インスタンスレベルの指標と奥行き順序の正確性においてベースラインを上回っている。特に、2%の性能向上をもたらすpost-processingを施した後で顕著な改善が見られる。

ABSTRACT

In this paper we tackle the problem of instance-level segmentation and depth ordering from a single monocular image. Towards this goal, we take advantage of convolutional neural nets and train them to directly predict instance-level segmentations where the instance ID encodes the depth ordering within image patches. To provide a coherent single explanation of an image we develop a Markov random field which takes as input the predictions of convolutional neural nets applied at overlapping patches of different resolutions, as well as the output of a connected component algorithm. It aims to predict accurate instance-level segmentation and depth ordering. We demonstrate the effectiveness of our approach on the challenging KITTI benchmark and show good performance on both tasks.

研究の動機と目的

  • 1枚の単眼画像からインスタンスレベルのセグメンテーションと奥行き順序を同時に予測する課題に対処すること。
  • オブジェクト検出を入力として依存しないようにし、検出、セグメンテーション、奥行き順序の3つを統合的に推論すること。
  • トレーニング段階で3次元バウンディングボックスとステレオデータからの弱い教師信号を活用しつつ、テスト段階では単一のRGB画像のみを必要とする。
  • 複数スケールのCNN予測を統合する構造的なMRFを用いて、インスタンスセグメンテーションと奥行き順序の正確性と一貫性を向上させること。
  • 自動運転を想定した複雑でオクルージョンが著しいKITTIベンチマークにおいて、有効性を示すこと。

提案手法

  • 本手法は、複数の解像度で密集してサンプリングされた画像パッチに対して、CNNを用いて奥行き順序付きのインスタンスセグメンテーションを予測する。
  • MRFにおける単一項ポテンシャルは、重複するパッチ上のCNN出力から得られ、インスタンスIDが奥行き順序を符号化する。
  • MRFにおける2項ポテンシャルは、隣接するピクセルおよび接続成分間の整合性を強制し、CNNベースのアフィニティ測度を用いる。
  • 各パッチごとにCNN出力を処理する連結成分アルゴリズムを用いて、初期のインスタンス候補を生成する。
  • 最終的なセグメンテーションと奥行き順序は、単一項および2項項を組み合わせたエネルギー最小化問題をMRF上で解くことで得られる。
  • MRF推論によるpost-processingは、特にリCALLと奥行き順序の指標において顕著な性能向上をもたらす。

実験結果

リサーチクエスチョン

  • RQ1オブジェクト検出を入力とせず、1枚の単眼画像から正確なインスタンスレベルのセグメンテーションと奥行き順序を同時に予測できるか。
  • RQ2マルチスケールのパッチベースCNN予測とMRF推論を組み合わせることで、インスタンスセグメンテーションと奥行き順序の正確性がどの程度向上するか。
  • RQ3MRFベースのpost-processingは、生のCNN予測や単一項のみの推論と比較して、どの程度性能を向上させるか。
  • RQ4オクルージョンが著しく、影や小さな物体が多数存在する複雑なシーン、特にKITTIベンチマークにおいて、この手法はどの程度一般化可能か。
  • RQ53次元バウンディングボックスとステレオデータからの弱教師信号を効果的に活用して、単一画像のインスタンスセグメンテーションと奥行き順序予測モデルを学習できるか。

主な発見

  • 完全なMRFアプローチは、ランダムに抽出されたフォアグラウンドピクセルペアのうち83.1%を正しく順序付けでき、ベースラインを著しく上回っている。
  • post-processingを施した後、インスタンスレベルの指標が約2%向上し、特にリCALLとMUCov/MWCov指標で顕著な向上が見られる。
  • post-processing後の2項MRF定式化は、単一項のみの推論を上回る性能を示しており、構造的推論が性能向上に不可欠であることを示している。
  • 本手法はKITTIベンチマークで強く、高いオブジェクト精度に加え、ベースラインと比較してリCALLが向上している。
  • 本手法は、複雑なオクルージョンパターンでさえも、1枚の画像パッチに最大5台の車両を正しくセグメンテーションおよび順序付けできる。
  • 失敗事例の主な原因は、CNNが検出できなかった小さな車両と、連結成分アルゴリズムによるインスタンスの融合である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。