QUICK REVIEW

[論文レビュー] DISN: Deep Implicit Surface Network for High-quality Single-view 3D Reconstruction

Qiangeng Xu, Weiyue Wang|arXiv (Cornell University)|May 25, 2019

Advanced Vision and Imaging被引用数 213

ひとこと要約

DISN は、単一画像からグローバルな画像特徴と局所的な画像特徴を投影して組み合わせることにより、連続的な符号付き距離場を予測し、単一ビューから高品質で詳細豊かな3D再構成と穴・薄い構造を可能にします。

ABSTRACT

Reconstructing 3D shapes from single-view images has been a long-standing research problem. In this paper, we present DISN, a Deep Implicit Surface Network which can generate a high-quality detail-rich 3D mesh from an 2D image by predicting the underlying signed distance fields. In addition to utilizing global image features, DISN predicts the projected location for each 3D point on the 2D image, and extracts local features from the image feature maps. Combining global and local features significantly improves the accuracy of the signed distance field prediction, especially for the detail-rich areas. To the best of our knowledge, DISN is the first method that constantly captures details such as holes and thin structures present in 3D shapes from single-view images. DISN achieves the state-of-the-art single-view reconstruction performance on a variety of shape categories reconstructed from both synthetic and real images. Code is available at https://github.com/xharlie/DISN The supplementary can be found at https://xharlie.github.io/images/neurips_2019_supp.pdf

研究の動機と目的

穴や細い構造などの細部を保持する高品質な単一視点3D再構成を動機づける。
単一画像から学習された暗黙的な3D表現（SDF）を開発する。
局所的な特徴抽出モジュールを導入し、投影された画像パッチを用いて細部の復元を強化する。
局所特徴のための3D点を画像へ正確に投影できるようカメラ姿勢を推定する。
ShapeNet Core で最先端の性能を示し、多視点再構成や関連タスクへ拡張する。

提案手法

3D形状を符号付き距離関数（SDF）として表現し、入力画像を与えられたときに3Dクエリ点のSDF値を予測する。
CNNエンコーダを用いてグローバルな画像特徴を抽出し、3D点を画像平面に投影するための6D回転形式でカメラ姿勢を推定する。
推定されたカメラパラメータを用いて各3Dクエリ点を画像へ投影し、投影位置のマルチスケール特徴マップから局所特徴を抽出する。
デコーダを介して局所・グローバル・点ごとの特徴を組み合わせて点特徴をデコードしSDF値を予測する。最終的なSDFは局所ベース予測とグローバルベース予測の和である。
表面の細部を回復するため、アイソサーフェース付近の点を強調する重み付きL1損失でSDF値を学習する（パラメータ m1, m2, delta）。
密な3Dグリッドをクエリして表面を再構成し、予測SDFにMarching Cubesを適用してメッシュを得る。

実験結果

リサーチクエスチョン

RQ1単一画像から高精細な3D形状を再構成するために、暗黙的な表現（SDF）をどのように学習できるか？
RQ2グローバル特徴に加えて投影された局所画像特徴を取り入れることで、単一視点の3D再構成における穴や薄い構造の回復が改善されるか？
RQ3カメラ姿勢推定の精度が局所特徴ベースのSDF予測と最終形状に与える影響は何か？
RQ4本手法は実画像にも一般化でき、マルチビュー再構成や形状補間をサポートできるか？

主な発見

DISN は ShapeNet Core のカテゴリー全体で単一視点3D再構成において最先端の性能を達成（定性的・定量的分析で）する。
投影パッチを介して局所的な画像特徴を取り入れることで、グローバル特徴のみを用いた場合と比較して穴や薄い構造などの細かなディテールが大幅に向上する。
モデルは連続的なSDF値を予測するため、ボクセル/ボリュームベースの手法よりも詳細で滑らかな表面を実現し、類似の暗黙法を上回ってディテール回復性能を示す。
6D回転表現を用いたカメラ姿勢推定は再投影精度で競争力があり、定性的な結果は姿勢誤差に対する頑健性を示す。
DISN はマルチビュー再構成と形状補間への拡張をサポートし、複数の視点がある場合に細部の捉えを改善し、オンラインの製品画像でのテストからドメイン移動能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。