QUICK REVIEW

[論文レビュー] Im2Avatar: Colorful 3D Reconstruction from a Single Image

Yongbin Sun, Ziwei Liu|arXiv (Cornell University)|Apr 17, 2018

Advanced Vision and Imaging参考文献 20被引用数 31

ひとこと要約

本論文では、1枚の画像から詳細なテクスチャ付き3Dオブジェクトを同時に復元できるエンド・ツー・エンドでトレーニング可能なフレームワーク、Colorful Voxel Network (CVN) を提案する。CVNは3D形状と表面色の両方を同時に学習することで、視覚的品質と多様なカテゴリーや視点における一般化性能を実現した。本手法は、再構築された色ボリュームと流れベースの色ボリュームを用いた新しいブレンド機構を導入し、外見の想起と幾何的投影を統合することで、最先端の性能を達成した。

ABSTRACT

Existing works on single-image 3D reconstruction mainly focus on shape recovery. In this work, we study a new problem, that is, simultaneously recovering 3D shape and surface color from a single image, namely "colorful 3D reconstruction". This problem is both challenging and intriguing because the ability to infer textured 3D model from a single image is at the core of visual understanding. Here, we propose an end-to-end trainable framework, Colorful Voxel Network (CVN), to tackle this problem. Conditioned on a single 2D input, CVN learns to decompose shape and surface color information of a 3D object into a 3D shape branch and a surface color branch, respectively. Specifically, for the shape recovery, we generate a shape volume with the state of its voxels indicating occupancy. For the surface color recovery, we combine the strength of appearance hallucination and geometric projection by concurrently learning a regressed color volume and a 2D-to-3D flow volume, which are then fused into a blended color volume. The final textured 3D model is obtained by sampling color from the blended color volume at the positions of occupied voxels in the shape volume. To handle the severe sparse volume representations, a novel loss function, Mean Squared False Cross-Entropy Loss (MSFCEL), is designed. Extensive experiments demonstrate that our approach achieves significant improvement over baselines, and shows great generalization across diverse object categories and arbitrary viewpoints.

研究の動機と目的

従来の研究で十分に検討されていなかった、1枚の画像から3D形状と表面色を同時に回復する課題に取り組む。
スパarsなボリューム表現を扱えるように、形状の占有状態と表面色を統合的に最適化するエンド・ツー・エンドでトレーニング可能なフレームワークを構築する。
統合された色学習メカニズムにより、外見の想起と幾何的投影を組み合わせることで、視覚的忠実度と一般化性能を向上させる。
迅速な3Dプロトタイピングや没入型VR/AR体験を可能にする実用的応用、たとえば「Im2Avatar」を実現する。

提案手法

形状と色の学習にそれぞれ独立したエンコーダ・デコーダネットワークを用い、共有された特徴抽出と分離されたヘッドを持つ。
形状回復は3D占有ボリュームとしてモデル化され、スパarsityに対処し解像度を向上させるために、新規の平均二乗偽交差エントロピー損失（MSFCEL）を用いて最適化される。
色の学習には再構築された色ボリュームと2Dから3Dへの流れボリュームを用い、これらを統合してブレンド色ボリュームを生成することで、冗長性を低減し、現実性を向上させる。
色サンプリングは占有ボクセル位置でのみ実行され、訓練損失は表面色ボクセルにのみ計算され、関係のない空のボクセルを除外する。
ブレンド機構は、学習された重みを用いて想起された色と投影された色を適応的に組み合わせ、遮蔽や複雑なテクスチャに対してより頑健な性能を実現する。
形状、色回帰、流れ、ブレンド、MSFCELの各項を組み合わせた複合損失を用いて、エンド・ツー・エンドでモデルをトレーニングする。

実験結果

リサーチクエスチョン

RQ1深層学習フレームワークは、1枚の画像から高視覚的品質で3D形状と表面色を同時に再構築できるか？
RQ2スパースボリューム設定下で、外見の想起と幾何的投影を効果的に統合する方法は何か？
RQ3提案されたブレンド機構は、多様なオブジェクトカテゴリーや視点において、色の現実性と一般化性能をどの程度向上させるか？
RQ4新規のMSFCEL損失は、スパースボクセル設定下で標準的な交差エントロピー損失と比較して、形状再構築性能をどのように改善するか？

主な発見

提案されたCVNフレームワークは、3D再構築において優れた視覚的品質を達成しており、ユーザースタディーではベースラインモデル（色回帰モデルおよび流れのみモデル）を顕著に上回ることが確認された。
CADモデルや可動する人間の姿など、多様なオブジェクトカテゴリにわたり良好な一般化性能を示し、任意の視点でも一貫した性能を発揮した。
ShapeNetの車両カテゴリにおいて、形状再構築の平均交差率（IoU）は0.395を達成し、統合ネットワークのバリエーション（0.386）を上回った。
豊富なテクスチャを持つ複雑な人間モデルに対しても高い性能を維持し、色の複雑さや遮蔽に対しても頑健であることが示された。
視点の影響は限定的であり、側面図の方が前面・背面図よりも形状再構築が優れている。これは対称性や詳細の捉えが良好であるためである。
色の複雑さが約40の異なる色クラスタを超えると性能が低下する傾向を示しており、極めて高色複雑度の入力に対処する限界があることが判明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。