QUICK REVIEW

[論文レビュー] Shape Completion using 3D-Encoder-Predictor CNNs and Shape Synthesis

Angela Dai, Charles R. Qi|arXiv (Cornell University)|Dec 1, 2016

3D Shape Modeling and Analysis参考文献 38被引用数 77

ひとこと要約

本論文では、最初に部分スキャンからのグローバル構造を意味的特徴を用いて推定する3Dエンコーダ・予測ネットワーク（3D-EPN）を用い、その後にパッチベースの3D形状合成手順により、データベースから高解像度のCADモデルを検索・整合化することで局所的な幾何的詳細を豊かにする2段階の3D形状補完フレームワークを提案する。本手法は、合成および実世界のベンチマークの両方で最先端の結果を達成し、完成度の高さと詳細回復の精度において、先行手法を顕著に上回っている。

ABSTRACT

We introduce a data-driven approach to complete partial 3D shapes through a combination of volumetric deep neural networks and 3D shape synthesis. From a partially-scanned input shape, our method first infers a low-resolution -- but complete -- output. To this end, we introduce a 3D-Encoder-Predictor Network (3D-EPN) which is composed of 3D convolutional layers. The network is trained to predict and fill in missing data, and operates on an implicit surface representation that encodes both known and unknown space. This allows us to predict global structure in unknown areas at high accuracy. We then correlate these intermediary results with 3D geometry from a shape database at test time. In a final pass, we propose a patch-based 3D shape synthesis method that imposes the 3D geometry from these retrieved shapes as constraints on the coarsely-completed mesh. This synthesis process enables us to reconstruct fine-scale detail and generate high-resolution output while respecting the global mesh structure obtained by the 3D-EPN. Although our 3D-EPN outperforms state-of-the-art completion method, the main contribution in our work lies in the combination of a data-driven shape predictor and analytic 3D shape synthesis. In our results, we show extensive evaluations on a newly-introduced shape completion benchmark for both real-world and synthetic data.

研究の動機と目的

コンsumer用RGB-Dセンサーから得られる不完全な3Dスキャン（しばしば遮蔽や欠損幾何学的領域を含む）の補完という課題に対処すること。
局所的な穴埋めを越えて、いすの脚や飛行機の翼といったグローバル構造的コンponentsを予測すること。
3D畳み込みニューラルネットワーク（3D CNN）の解像度制限を克服し、形状データベースからの高解像度幾何的事前知識を統合すること。
データ駆動型予測と解析的形状合成を統合したエンドツーエンドのパイプラインを構築し、優れた再構築品質を実現すること。

提案手法

3D-エンコーダ・予測ネットワーク（3D-EPN）を訓練し、暗黙的な符号付き距離関数表現を用いて部分スキャンから完全な形状を予測する。
事前学習済みの3D-CNN分類ネットワークからの意味的埋め込みを活用することで、3D-EPNは構造的一致性とグローバルな一般化性能を向上させる。
3D-EPNが生成する中間の低解像度予測を、学習されたボリュームエムベッディングを用いて3D形状データベースと照合し、幾何的に類似したCADモデルを検索する。
パッチベースの3D形状合成手順により、3D-EPNが得た粗い構造を保持しつつ、検索された形状からの幾何的制約を強制することで、高解像度出力を段階的に最適化する。
マルチスケールアプローチを採用：まず3D-EPNによる粗い補完を行い、その後に詳細な合成を実施することで、高解像度での直接的な3D CNN学習を回避しつつ高解像度出力を実現する。
学習データは、ShapeNet内の完全なCADモデルから現実的な部分スキャンをシミュレートすることで合成され、正例は32³解像度で生成される。

実験結果

リサーチクエスチョン

RQ1意味的文脈を用いて、3D-エンコーダ・予測ネットワーク（3D-EPN）は部分スキャンからグローバル3D構造を効果的に推定できるか？
RQ2直接的な高解像度3D CNNが計算的に非現実的である場合、高解像度幾何的詳細はどのように回復できるか？
RQ3形状データベースからの検索は、ネットワーク単体が達成できる範囲を超えて、深層学習ベースの形状補完の忠実度を向上させられるか？
RQ4深層学習と解析的形状合成を組み合わせることで、挑戦的な形状補完タスクにおいて、単独の手法よりも優れた結果が得られるか？

主な発見

3D-EPN単体でも、合成ShapeNetデータ上で平均ℓ1誤差が2.33に達し、先行する最先端手法を上回っている。
形状合成と組み合わせた最終的手法は、同じベンチマークで平均ℓ1誤差1.89を達成し、顕著な改善が見られた。
3D-EPNの予測結果を3D-CNNの入力として用いることで、分類精度が90.9%から92.6%に、形状検索精度が90.3%から95.4%に向上した。
本手法は、いすの脚や飛行機の翼構造といった微細な幾何的詳細を効果的に回復できており、純粋に学習ベースまたは幾何処理中心の手法ではしばしば見過ごされる。
符号付き距離関数表現は、構造的整合性を保ち、正確な補完を可能にする観点で、占有状態や三値ボクセルグリッドを上回っている。
本手法は実世界のKinectスキャンに対しても良好に一般化され、極端な遮蔽状況下でも視覚的に妥当で高品質なメッシュ再構築を生成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。