QUICK REVIEW

[論文レビュー] High-Resolution Shape Completion Using Deep Neural Networks for Global Structure and Local Geometry Inference

Xiaoguang Han, Zhen Li|arXiv (Cornell University)|Sep 22, 2017

3D Shape Modeling and Analysis参考文献 27被引用数 45

ひとこと要約

本稿では、3次元フルコンvolutionおよびLSTMベースのコンテキスト統合モジュールを備えたグローバル構造推定ネットワークと、局所的幾何構造をピクセル単位で再構築するローカル幾何構造精緻化ネットワークからなる2本のブランチを持つ深層学習フレームワークを提案する。この手法は6つのオブジェクトカテゴリで最先端の性能を達成し、チェアでは97.25%の完全性スコア、ガンでは98.58%を記録し、先行手法を著しく上回る性能を示した。

ABSTRACT

We propose a data-driven method for recovering miss-ing parts of 3D shapes. Our method is based on a new deep learning architecture consisting of two sub-networks: a global structure inference network and a local geometry refinement network. The global structure inference network incorporates a long short-term memorized context fusion module (LSTM-CF) that infers the global structure of the shape based on multi-view depth information provided as part of the input. It also includes a 3D fully convolutional (3DFCN) module that further enriches the global structure representation according to volumetric information in the input. Under the guidance of the global structure network, the local geometry refinement network takes as input lo-cal 3D patches around missing regions, and progressively produces a high-resolution, complete surface through a volumetric encoder-decoder architecture. Our method jointly trains the global structure inference and local geometry refinement networks in an end-to-end manner. We perform qualitative and quantitative evaluations on six object categories, demonstrating that our method outperforms existing state-of-the-art work on shape completion.

研究の動機と目的

オクルージョンや不良なスキャン条件によって生じる大規模な欠損領域を有する3次元形状の補完という課題に対処すること。
従来の幾何ベースの手法では大規模なギャップや深層学習手法における粗いボクセル表現に対応できないという制限を克服すること。
エンドツーエンドの方法でグローバル構造とローカル幾何的詳細を同時に学習することで、形状補完の品質を向上させること。
グローバルコンテキストと局所的で高精度の表面精緻化を組み合わせることで、高解像度出力を可能にすること。
大規模な3次元モデルコレクションを活用して、強力な3次元形状の事前知識を学習し、頑健な補完を可能にすること。

提案手法

本手法は、マルチビュー深度入力を用いて完全な形状構造を推定するグローバル構造推定ネットワークを採用している。このネットワークは3次元フルコンボリューションネットワーク（3DFCN）とビュー基盤の長期短期記憶（LSTM）コンテキスト統合（LSTM-CF）モジュールを組み合わせている。
3DFCNブランチは符号付き距離関数（CSDF）と境界表面（BSurf）特徴量を用いてボリュメトリック表現を処理するが、LSTM-CFブランチはマルチビューのコンテキストを符号化し、グローバル形状構造をモデル化する。
ローカル幾何構造精緻化ネットワークは3次元エンコーダ・デコーダアーキテクチャを用い、グローバル構造予測に基づいて高解像度の表面をピクセル単位で再構築する。
グローバルネットワークとローカルネットワークは、AUCベースの損失関数を用いたグローバル構造予測と、交差エントロピー損失を用いたローカル精緻化を含むマルチタスク損失関数を用いてエンドツーエンドで同時に学習される。
本フレームワークは、まず不完全な点群からグローバル形状構造を推定し、その後低解像度ボクセル入力から高解像度出力へと欠損領域を精緻化することで処理を行う。
本手法はピクセル単位の処理を採用し、欠損領域の境界から開始することで、詳細な幾何構造の合成を可能にする。

実験結果

リサーチクエスチョン

RQ1深層学習モデルが、グローバル形状構造の推定とローカル幾何構造の精緻化を同時に実行することで、高解像度3次元形状補完を達成できるか？
RQ23次元フルコンボリューションネットワークとLSTMベースのコンテキストモデリングの組み合わせは、不完全な入力からのグローバル構造予測にどの程度効果的か？
RQ3グローバル構造予測に基づくローカル精緻化は、完成した3次元形状の品質と妥当性を向上させるか？
RQ4高解像度深度画像、CSDF、BSurfといった異なる入力モodal がグローバル構造推定に果たす寄与は何か？
RQ5グローバルガイドなしでは、ローカル幾何構造精緻化の性能にどのような影響が生じるか？

主な発見

提案手法はチェアカテゴリで97.25%の完全性スコアと0.00398の正規化距離を達成し、先行する最先端手法を著しく上回った。
ガンカテゴリでは98.58%の完全性と0.00281の正規化距離を達成し、複雑でアーティキュレーテッドな形状に対しても優れた性能を示した。
アブレーションスタディの結果、LSTMコンテキストモデリングやAUC損失を削除すると、グローバルネットワークのF1スコアはそれぞれ0.896および0.904に低下し、これらが重要であることが示された。
グローバルガイドなしではローカル幾何構造精緻化ネットワークの性能がF1スコア0.912に低下し、グローバルガイドの重要性が確認された。
グローバルネットワークの1×1×1畳み込みをエンコーダ・デコーダ構造に置き換えると性能が0.818に低下し、直接的な空間的コンテキストモデリングの重要性が示された。
動物カテゴリでは95.53%の完全性と0.00363の正規化距離を達成し、多様なオブジェクトクラスにわたる強力な一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。