QUICK REVIEW

[論文レビュー] Semantic Instance Annotation of Street Scenes by 3D to 2D Label Transfer

Jun Xie, Martin Kiefel|arXiv (Cornell University)|Nov 10, 2015

Advanced Vision and Imaging参考文献 43被引用数 22

ひとこと要約

本稿では、ステレオまたはレーザースキャンから得られる3Dセマンティックインスタンスアノテーションを活用して、ストリートシーンのための高密度で時間的に整合性のある2Dセマンティックインスタンスラベルを生成する3Dから2Dへのラベル転送手法を提案する。3Dポイント、2Dピクセル、幾何制約を統合的に考慮する非局所的マルチフィールドCRFモデルを用いることで、ラベリング時間の90％削減を実現するとともに、精度向上と不確実性を考慮した半密度ラベリングを可能にし、新規の郊外ビデオデータセットから400万枚のアノテート済み画像を生成した。

ABSTRACT

Semantic annotations are vital for training models for object recognition, semantic segmentation or scene understanding. Unfortunately, pixelwise annotation of images at very large scale is labor-intensive and only little labeled data is available, particularly at instance level and for street scenes. In this paper, we propose to tackle this problem by lifting the semantic instance labeling task from 2D into 3D. Given reconstructions from stereo or laser data, we annotate static 3D scene elements with rough bounding primitives and develop a model which transfers this information into the image domain. We leverage our method to obtain 2D labels for a novel suburban video dataset which we have collected, resulting in 400k semantic and instance image annotations. A comparison of our method to state-of-the-art label transfer baselines reveals that 3D information enables more efficient annotation while at the same time resulting in improved accuracy and time-coherent labels.

研究の動機と目的

ストリートシーンにおける大規模かつインスタンスレベルのセマンティックアノテーションの高コストと不足問題に対処すること。
幾何的および外観的手がかりを用いて3Dインスタンスラベルを2D画像に転送することで、ラベリング時間の短縮とラベルの一貫性の向上を図ること。
確率的推論からのラベル信頼度推定により、不確実性を考慮した半密度ラベリングを可能にすること。
400万枚の画像、10万枚のレーザースキャン、3Dセマンティックインスタンスアノテーションを備えた新規の大規模な郊外ビデオデータセットを構築・公開すること。
3D情報が、最先端の2Dオンリーのラベル転送手法と比較して、より正確かつ効率的な2Dラベリングを可能にすることを実証すること。

提案手法

本手法は、ステレオまたはレーザーデータからの3D再構築に、粗いボクセルプリミティブを用いた3Dセマンティックインスタンスアノテーションから出発する。
非局所的マルチフィールドCRFモデルが、3Dポイント、2D画像ピクセル、幾何制約を統合的に推論することで、3Dから2Dへのラベル転送を実現する。
CRFは、投影された3Dポイントからの外観特徴、3Dポイント間のペアワイズ関係、3Dプリミティブからのセマンティック／インスタンス制約を統合する。
モデルには、セマンティックセグメンテーションとインスタンスセグメンテーションの両方の最適化を一貫した方法で行える統合損失関数が含まれる。
ラベルの不確実性は、周辺ラベル分布のエントロピーを用いて推定され、信頼度の高い領域における半密度推論を可能にする。
フレーム間の同一3Dオブジェクトへの2Dラベルの関連付けにより、時間的整合性を確保する。

実験結果

リサーチクエスチョン

RQ13Dアノテーションは、ストリートシーンにおける2Dセマンティックインスタンスラベリングに要する時間と労力の大幅な削減を可能にするか？
RQ23D幾何的推論を組み込むことで、2Dオンリーのベースラインと比較して、2Dラベル転送の精度と一貫性が向上するか？
RQ31つのオブジェクトに対して1回の3Dアノテーションで、動画シーケンス全体にわたって時間的に整合性のあるインスタンスレベルのラベルを生成できるか？
RQ4確率的モデルからの不確実性推定は、半密度推論によるラベル効率の向上にどの程度寄与するか？
RQ53Dプリミティブ制約と3Dペアワイズ関係の統合は、複雑なシーンにおける境界の明確化にどのように寄与するか？

主な発見

提案手法は、手作業による2Dラベリングと比較して、最大90％のラベリング時間削減を達成し、200時間かかる2Dラベリングを3時間の3Dアノテーションで代替可能となった。
半密度推論で最も信頼度の高い90％のピクセルのみを予測した場合、ジャッカードインデックス（JI）は94.9％、正答率は97.4％を達成した。
アブレーションスタディの結果、非局所的マルチフィールドCRFの各構成要素（特に3Dから2Dの対応）が性能向上に寄与しており、特に3D-2D統合的推論による改善が顕著であった。
最先端の2Dラベル転送ベースラインと比較して、セマンティックセグメンテーションおよびインスタンスセグメンテーションの両方で優れた性能を示し、インスタンス分類の結果はセマンティック分類と同等の水準に達した。
2Dオンリー手法と比較して、複雑な境界（例：建物の前を走る木）の処理をよりよく行えたが、低コントラストまたは隠蔽領域では依然として誤りが生じた。
データセットの公開には、400万枚の画像、10万枚のレーザースキャン、3Dセマンティックインスタンスアノテーションを含み、今後の3Dに配慮した2Dセグメンテーション研究を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。