QUICK REVIEW

[論文レビュー] ScanComplete: Large-Scale Scene Completion and Semantic Segmentation for 3D Scans

Angela Dai, Daniel Ritchie|arXiv (Cornell University)|Dec 29, 2017

3D Shape Modeling and Analysis参考文献 40被引用数 43

ひとこと要約

ScanCompleteは、粗いから細かい段階への推論戦略を活用することで、大規模で不完全な3Dスキャンの補完とボクセル単位のセマンティックセグメンテーションを実現する、完全畳み込み型のデータ駆動型3D CNNフレームワークを提案する。本手法は、実データおよび合成データの両方において、シーン補完およびセマンティックラベリングの分野で最先端の結果を達成しており、1480×1230×64ボクセルに達するシーンを高解像度かつグローバルな一貫性を保ちながら処理できる。

ABSTRACT

We introduce ScanComplete, a novel data-driven approach for taking an incomplete 3D scan of a scene as input and predicting a complete 3D model along with per-voxel semantic labels. The key contribution of our method is its ability to handle large scenes with varying spatial extent, managing the cubic growth in data size as scene size increases. To this end, we devise a fully-convolutional generative 3D CNN model whose filter kernels are invariant to the overall scene size. The model can be trained on scene subvolumes but deployed on arbitrarily large scenes at test time. In addition, we propose a coarse-to-fine inference strategy in order to produce high-resolution output while also leveraging large input context sizes. In an extensive series of experiments, we carefully evaluate different model design choices, considering both deterministic and probabilistic models for completion and semantic inference. Our results show that we outperform other methods not only in the size of the environments handled and processing efficiency, but also with regard to completion quality and semantic segmentation performance by a significant margin.

研究の動機と目的

センサの遮蔽や範囲制限による室内シーンにおける不完全な3D再構成の課題に対処すること。
ボリュメトリック3D表現の立方体的メモリ増加を克服し、任意の空間的スケールを持つ大規模シーンの処理を可能にすること。
完全なシーン理解のため、高解像度の3Dジオメトリとボクセル単位のセマンティックラベルを同時に予測すること。
微調整なしに合成学習データから実世界のRGB-Dスキャンへ一般化可能な手法を開発すること。
ジオメトリとセマンティクスを共同でモデリングすることで、高い補完精度とセマンティックセグメンテーション性能を両立させること。

提案手法

シーンサイズに依存しないフィルターカーネルを備えた完全畳み込み型3D CNNを採用し、サブボリュームでの学習と任意の大規模シーンへのデプロイを可能にする。
粗いから細かい段階への推論戦略を実装：広いコンテキストを持つ低解像度の予測が、階層的リファインメントを用いて高解像度出力を指導致す。
空間階層全体にわたる依存関係をモデル化するため、自己回帰的ボリュメトリックネットワークを統合し、グローバルな一貫性を向上させる。
学習と推論の解像度を分離し、小さなサブボリュームで学習した場合でも高解像度出力を可能にする。
合成データ（SUNCG）で学習し、ドメイン適応なしに実スキャン（ScanNet）に転移する。
3D補完とセマンティックセグメンテーションの両方を共同最適化し、パフォーマンス向上に寄与する共有表現を活用する。

実験結果

リサーチクエスチョン

RQ1完全畳み込み型3D CNNは、無限大の空間的スケールを持つシーンを処理しつつ、高解像度出力を維持できるか？
RQ2粗いから細かい段階への推論戦略は、単一スケール手法と比較して、3Dシーン補完およびセマンティックラベリングの品質をどのように向上させるか？
RQ3合成データで学習したモデルは、実世界のRGB-Dスキャンにおける3D補完およびセマンティックセグメンテーションに、どの程度一般化できるか？
RQ4ジオメトリとセマンティクスの共同予測は、これらのタスクを別々にモデリングする場合よりも優れたパフォーマンスをもたらすか？
RQ5広大な空間的コンテキストは、3Dシーン補完におけるグローバルな一貫性とローカルな詳細にどのような影響を与えるか？

主な発見

ScanCompleteは、合成データおよび実スキャン（ScanNet）の両方において、Poisson Surface Reconstruction や 3D-EPN などの手法を上回る、3Dシーン補完分野における最先端のパフォーマンスを達成した。
特に大規模なシーンにおいて、ベースライン手法（SSCNet や 3D-EPN）と比較して、再構成誤差（ℓ₁損失）を顕著に低減した。
SUNCGデータセットにおけるセマンティックセグメンテーションの精度は、補完とラベリングを共同で行うことで顕著に向上し、mIoUが SSCNet や他のベースラインを上回った。
モデルは合成学習データから実世界のRGB-Dスキャン（ScanNet）への一般化が効果的に実現され、微調整なしに現実的で整合性のある補完を生成した。
粗いから細かい段階への戦略により、高解像度出力（約5 cm³ボクセル）を維持しながらもグローバルな一貫性を保つことができ、定性的および定量的結果で裏付けられた。
推論はテスト時に効率的であり、シーンサイズに関わらずO(1)回の順伝播で実現可能であるのに対し、従来手法はサブボリュームに対してO(w×h×d)回の順伝播を要していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。