QUICK REVIEW

[論文レビュー] Superpixel Soup: Monocular Dense 3D Reconstruction of a Complex Dynamic Scene

Suryansh Kumar, Yuchao Dai|arXiv (Cornell University)|Nov 19, 2019

Image Processing and 3D Reconstruction参考文献 54被引用数 5

ひとこと要約

本稿では、複雑な動的シーンの単眼連続3次元再構成を統一的に実現するSuperpixel Soupを提案する。シーンを局所的に平面的な表面の集合としてモデル化し、各表面が可能な限り剛体変形（ARAP）モデルに従って運動する。幾何的整合性制約を備えた3次元のジグソーパuzzleとして再構成を捉えることで、スケールの不確かさを解消し、オブジェクトレベルの運動セグメンテーションを必要とせずに、ベンチマークデータセットで最先端の性能を達成する。

ABSTRACT

This work addresses the task of dense 3D reconstruction of a complex dynamic scene from images. The prevailing idea to solve this task is composed of a sequence of steps and is dependent on the success of several pipelines in its execution. To overcome such limitations with the existing algorithm, we propose a unified approach to solve this problem. We assume that a dynamic scene can be approximated by numerous piecewise planar surfaces, where each planar surface enjoys its own rigid motion, and the global change in the scene between two frames is as-rigid-as-possible (ARAP). Consequently, our model of a dynamic scene reduces to a soup of planar structures and rigid motion of these local planar structures. Using planar over-segmentation of the scene, we reduce this task to solving a "3D jigsaw puzzle" problem. Hence, the task boils down to correctly assemble each rigid piece to construct a 3D shape that complies with the geometry of the scene under the ARAP assumption. Further, we show that our approach provides an effective solution to the inherent scale-ambiguity in structure-from-motion under perspective projection. We provide extensive experimental results and evaluation on several benchmark datasets. Quantitative comparison with competing approaches shows state-of-the-art performance.

研究の動機と目的

カメラと物体が両方とも動く複雑な動的シーンにおける高密度3次元再構成の課題に対処すること。
透視的構造からモーション（SfM）におけるスケールの不確かさに苦しむ、オブジェクトレベルの運動セグメンテーションに依存する既存手法の限界を克服すること。
シーンの剛体性やオブジェクト境界に関する事前知識を必要としない統一フレームワークを構築すること。
幾何的制約を用いて、単眼3次元再構成に内在する相対スケールの不確かさを解消すること。
2枚の透視画像からのみ、グローバルに整合性のある高密度3次元再構成を達成すること。

提案手法

本手法は、動的シーンを「スープ」としての局所平面的表面の集合としてモデル化し、各表面に独自の剛体運動を割り当てる。
スーパーピクセルに基づく過剰セグメンテーションを用いて、画像内の局所的な平面領域を定義し、各スーパーピクセルごとの3次元再構成を可能にする。
隣接するスーパーピクセル間で可能な限り剛体変形（ARAP）モデルを強制するグローバル最適化フレームワークを採用し、滑らかで一貫性のある3次元運動を保証する。
最適化は4つのエネルギー項を組み合わせる：局所的剛体性のためのARAP、2次元整合性のための再投影誤差、境界を越えた3次元連続性、法線方向の整列。
ARAP項は、スーパーピクセルのアンカーポイントのK近傍法グラフ上で定義され、3次元空間における局所的剛体性を保持する。
本手法は、すべての平面パッチの3次元位置と相対スケールを同時に最適化し、外部の事前知識を用いずにスケールの不確かさを解消する。

実験結果

リサーチクエスチョン

RQ1オブジェクトレベルの運動セグメンテーションに依存せずに、複雑な動的シーンの高密度3次元再構成が可能か？
RQ2幾何的事前知識を用いて、単眼SfMにおけるスケールの不確かさをどのように解消できるか？
RQ3可能な限り剛体変形を適用するような、分片的平面モデルが、現実的な動的シーンの運動をどの程度正確に捉えることができるか？
RQ4ARAP、再投影、連続性、方向性といった各幾何的制約項が、最終的な再構成品質にどの程度寄与しているか？
RQ5統一された最適化フレームワークは、動的シーン再構成において、局所的剛体性とグローバル整合性の両立を効果的に果たせるか？

主な発見

提案手法は、MPI Sintel や YouTube Object といったベンチマークデータセットで最先端の性能を達成し、重要なシーケンスにおいて平均相対再構成誤差が0.17未満に抑えられた。
アブレーションスタディの結果、ARAP、再投影、連続性、方向性の4つのエネルギー項のいずれかを除去すると、再構成品質が著しく低下することが判明した。
ARAP項は正しい相対スケール推定に不可欠であり、再投影、連続性、方向性の項の組み合わせが、隣接する平面間の滑らかで整列した3次元境界を保証する。
本手法は、動的な四肢をもつ移動する少女や移動するカートを含む、複雑な運動を示すシーンを成功裏に再構成でき、それらの条件下で失敗する先行手法を上回った。
法線方向の整列制約の導入は僅かな改善しかもたらさず、ARAP項と再投影項が最適化において主導的であることが示された。
表2の定量的結果から、ARAP項を追加することで、alley_1シーケンスの誤差がベースラインの0.2248から0.1606に低下することが明らかになった。これはARAP項が果たす重要な役割を裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。