QUICK REVIEW

[論文レビュー] Parallel Structure from Motion from Local Increment to Global Averaging

Siyu Zhu, Tianwei Shen|arXiv (Cornell University)|Feb 28, 2017

Robotics and Sensor-Based Localization参考文献 61被引用数 40

ひとこと要約

本論文は、グラフベースのカメラクラスタリングアルゴリズムによりカメラ同士の接続性を保持することで、100万枚を超える高解像度画像から都市規模のシーンを正確かつ一貫して再構築できるスケーラブルで並列処理可能な構造からモーション（SfM）パイプラインを提案する。局所的インクリメンタルSfMとグローバルモーションアveragingを組み合わせることで、最先端の精度を達成するとともに、トラック生成ではピークメモリ使用量を34.62GB、バンドル調整では0.53GBにまで低減し、単一のコンピュータの限界を著しく上回る性能を発揮する。

ABSTRACT

In this paper, we tackle the accurate and consistent Structure from Motion (SfM) problem, in particular camera registration, far exceeding the memory of a single computer in parallel. Different from the previous methods which drastically simplify the parameters of SfM and sacrifice the accuracy of the final reconstruction, we try to preserve the connectivities among cameras by proposing a camera clustering algorithm to divide a large SfM problem into smaller sub-problems in terms of camera clusters with overlapping. We then exploit a hybrid formulation that applies the relative poses from local incremental SfM into a global motion averaging framework and produce accurate and consistent global camera poses. Our scalable formulation in terms of camera clusters is highly applicable to the whole SfM pipeline including track generation, local SfM, 3D point triangulation and bundle adjustment. We are even able to reconstruct the camera poses of a city-scale data-set containing more than one million high-resolution images with superior accuracy and robustness evaluated on benchmark, Internet, and sequential data-sets.

研究の動機と目的

単一のコンピュータのメモリ容量を超える大規模かつ高解像度のSfMシーンを再構築する課題に対処すること。
再構築プロセス全体を通じてカメラ同士の接続性と対応するトラックを保持し、精度と一貫性を向上させること。
SfMの全段階（トラック生成、局所的SfM、3次元トリアングレーション、バンドル調整）をサポートするスケーラブルで並列処理可能なパイプラインを開発すること。
従来のグローバルおよびインクリメンタルSfM手法が接続性を犠牲にしたり、漂移誤差が生じたり、高メモリ使用量を示すという制限を克服すること。

提案手法

カメラ同士の接続性を保持するグラフベースのカメラクラスタリングアルゴリズムを提案し、SfM問題を重複するカメラクラスタに分割する。
各クラスタ内でP3PとRANSACを用いた非線形バンドル調整を組み合わせた局所的インクリメンタルSfMを適用し、正確な相対カメラポーズを計算する。
局所的SfMから得た相対ポーズをグローバルモーションアveragingフレームワークに統合し、一貫性のあるグローバルカメラポーズを計算する。
インクリメンタルSfMのロバスト性とモーションアveragingのグローバル一貫性を組み合わせたハイブリッドSfM定式化を採用する。
クラスタベースの分解を用いて、トラック生成、トリアングレーション、バンドル調整を含むSfMパイプライン全段階を複数のコンピュータに分散処理する。
各クラスタを独立して処理し、データ転送を最小限に抑えることで、単一マシンの限界を超えたスケーラビリティを実現するためのメモリ使用量最適化を実施する。

実験結果

リサーチクエスチョン

RQ1スケーラブルなSfMパイプラインは、単一コンピュータのメモリ制限を超えて動作する際、大規模な再構築においてカメラ同士の接続性を保持できるか？
RQ2インクリメンタルSfMの精度をどのようにしてグローバルモーションアveragingと組み合わせ、一貫性がありグローバルに最適なカメラポーズを達成できるか？
RQ3従来のグローバルまたはインクリメンタルSfM手法と比較して、クラスタベースの分解を用いることで、精度とメモリ効率にどの程度の向上が得られるか？
RQ4本手法は、100万枚を超える高解像度画像を含む都市規模のデータセットにどの程度スケーリングできるか？
RQ5ベンチマーク、インターネット、順次データセットにおいて、本手法は最先端のSfMパイプラインと比較して、精度とロバスト性においてどの程度優れているか？

主な発見

提案されたパイプラインは、100万枚を超える5000万画素の画像からなる都市規模のデータセットから、121万個のカメラポーズと16億8000万個の3次元点を正確に再構築した。これは単一マシンのメモリ制限を著しく超える成果である。
ピークメモリ使用量は、トラック生成で34.62GB、バンドル調整で0.53GBにまで低減され、それぞれ標準パイプラインの使用量の2.1%〜8.7%、0.1%〜3.8‰にまで削減された。
City-Aデータセット（3615万画素）において平均再投影誤差1.18ピクセルを達成し、オリジナルの高解像度画像をそのまま使用しても、標準パイプラインを上回る精度を示した。
カメラクラスタリングステップの実行時間は、都市規模のデータセットで3.57〜11.71分と短く、パイプライン全体に比べて極めて高い効率性を示した。
10台のコンピュータを用いて1日で13万8000台のカメラと1億個の3次元点を再構築した。これは、大規模応用におけるスケーラビリティと実用性を裏付けるものである。
テクスチャ付きメッシュモデルの可視化結果から、高い幾何的忠実性と一貫性が確認され、再構築されたカメラポーズの正確性が検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。