Skip to main content
QUICK REVIEW

[論文レビュー] Pixel-level Encoding and Depth Layering for Instance-level Semantic Labeling

Jonas Uhrig, Marius Cordts|arXiv (Cornell University)|Apr 18, 2016
Advanced Neural Network Applications参考文献 2被引用数 36
ひとこと要約

本論文では、単一の単眼画像からインスタンスレベルのセマンティックラベリングを実現する完全畳み込みネットワーク(FCN)ベースの手法を提案する。本手法は、同時にセマンティックラベル、深度、インスタンス中心へのピクセル単位の方向を予測する。これらの情報と低レベルのコンピュータビジョン技術(例:テンプレートマッチング)を組み合わせることで、KITTIおよびCityscapesで最先端の性能を達成し、インスタンスセグメンテーションの分野で先行手法を上回るとともに、絶対的深度とピクセル単位のセマンティック情報を同時に推定する。

ABSTRACT

Recent approaches for instance-aware semantic labeling have augmented convolutional neural networks (CNNs) with complex multi-task architectures or computationally expensive graphical models. We present a method that leverages a fully convolutional network (FCN) to predict semantic labels, depth and an instance-based encoding using each pixel's direction towards its corresponding instance center. Subsequently, we apply low-level computer vision techniques to generate state-of-the-art instance segmentation on the street scene datasets KITTI and Cityscapes. Our approach outperforms existing works by a large margin and can additionally predict absolute distances of individual instances from a monocular image as well as a pixel-level semantic labeling.

研究の動機と目的

  • 複雑なマルチタスクネットワークや計算コストの高い後処理に依存する既存のインスタンス認識セマンティックラベリング手法の限界を解消すること。
  • 単一の単眼画像から高精度でリアルタイムなインスタンスセグメンテーションを実現し、深度推定とピクセル単位のセマンティックラベリングを併せて行えるようにすること。
  • FCNの予測結果と効率的なテンプレートマッチング、深度レイヤー構成を組み合わせることで、混雑で隠蔽が多い街路シーンにおける性能を向上させること。
  • オブジェクトプロポーザルに依存しないプロポーザルフリーな手法を提供することで、プロポーザルの品質に起因する誤差伝搬を低減すること。

提案手法

  • 完全畳み込みネットワーク(FCN)が、各ピクセルに対して3つの出力を予測する:セマンティッククラス、インスタンス中心への方向ベクトル、離散的深度レベル。
  • 方向ベクトルを用いて、カテゴリ固有のスコアマップ上でテンプレートマッチングを実行し、インスタンスプロポーザルを生成する。
  • 深度予測を19クラスに離散化し、オブジェクトサイズの分布を均衡にするために非一様な範囲を設定する。
  • 深度レイヤー構成戦略を用いて、インスタンスプロポーザルを精緻化・統合し、深度順序と隠蔽の推論を強制する。
  • インスタンスセグメンテーションのためのエンドツーエンド学習ではなく、FCNの出力を標準的なコンピュータビジョン技術(例:テンプレートマッチング)と組み合わせることで処理を実行する。
  • 後処理段階では、予測された深度と方向の手がかりを用いて隠蔽を解消し、セグメンテーションの正確性を向上させる。

実験結果

リサーチクエスチョン

  • RQ1オブジェクトプロポーザルに依存せずに、1つのFCNが十分な手がかり(セマンティックラベル、深度、インスタンス中心への方向)を予測することで、高品質なインスタンスセグメンテーションを達成できるか?
  • RQ2都市部の複雑なシーンにおいて、深度と方向の同時予測がインスタンスレベルのセマンティックラベリングにどのように寄与するか?
  • RQ3テンプレートマッチングのような低レベルのコンピュータビジョン技術が、FCNの出力を効果的に活用して正確なインスタンスマスクを生成できるか?
  • RQ4離散的深度クラスに基づく深度レイヤー構成が、隠蔽の推論とセグメンテーションの正確性を向上させるか?

主な発見

  • 本手法は、KITTIおよびCityscapesデータセットの両方で、インスタンスセグメンテーションの分野で最先端の性能を達成しており、既存のプロポーザルベースおよびマルチタスクアプローチを上回っている。
  • インスタンスレベルの評価において、本手法は全クラスにおいてMCG+R-CNNベースラインを顕著に上回っており、特に車両と人のクラスで顕著な向上を示している。
  • ピクセル単位のセマンティックセグメンテーションにおいても、人、車両、自転車といった重要なクラスでiIoU指標を用いて多数のベースラインを上回る競争力のある結果を達成している。
  • バス、トラック、列車といったクラスでは、FCNにおけるセマンティック分類の正確性が低いため、その影響がテンプレートマッチングおよびインスタンス生成に伝搬され、性能が低下している。
  • オブジェクトサイズの分布に基づいて非一様な19クラスに深度を離散化することで、テンプレートマッチングの信頼性と全体の性能が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。