Skip to main content
QUICK REVIEW

[論文レビュー] Learning Category-Specific Mesh Reconstruction from Image Collections

Angjoo Kanazawa, Shubham Tulsiani|arXiv (Cornell University)|Mar 20, 2018
3D Shape Modeling and Analysis参考文献 28被引用数 28
ひとこと要約

本論文は、3Dデータやマルチビューの教師データを一切用いずに、アノテート済み画像コレクションのみを用いて、1枚の画像から詳細な3Dテクスチャ付きメッシュ再構築を予測するディーパーニューラルネットワークフレームワークを提案する。カテゴリ固有の可変メッシュを用い、学習された平均形状とインスタンス固有の変形を組み合わせることで、形状、カメラポーズ、テクスチャのエンドツーエンド予測を可能にし、CUBおよびPASCAL3D+で最先端の性能を達成。また、新しい視点やセマンティックキーポイントの整合性にも優れた一般化性能を示す。

ABSTRACT

We present a learning framework for recovering the 3D shape, camera, and texture of an object from a single image. The shape is represented as a deformable 3D mesh model of an object category where a shape is parameterized by a learned mean shape and per-instance predicted deformation. Our approach allows leveraging an annotated image collection for training, where the deformable model and the 3D prediction mechanism are learned without relying on ground-truth 3D or multi-view supervision. Our representation enables us to go beyond existing 3D prediction approaches by incorporating texture inference as prediction of an image in a canonical appearance space. Additionally, we show that semantic keypoints can be easily associated with the predicted shapes. We present qualitative and quantitative results of our approach on CUB and PASCAL3D datasets and show that we can learn to predict diverse shapes and textures across objects using only annotated image collections. The project website can be found at https://akanazawa.github.io/cmr/.

研究の動機と目的

  • 3Dデータやマルチビューの教師データを一切必要としない単一画像からの3D形状再構築の課題に対処すること。
  • 1枚のアノテートされていないテスト画像から、3Dメッシュ形状、カメラポーズ、テクスチャをエンドツーエンドで予測できること。
  • 訓練に、前景マスクとセマンティックキーポイントの2Dアノテーションのみを用いた、カテゴリ固有の強力な3D生成モデルを構築すること。
  • 標準化された外観空間におけるテクスチャ予測を可能にし、セマンティックキーポイントの関連付けを可能にする統一された3D表現を導入すること。
  • 反復的最適化に依存する従来のフィッティング手法の限界を克服し、学習された効率的な予測ネットワークに置き換えること。

提案手法

  • カテゴリ固有の平均形状とインスタンス固有の変形ベクトルを学習するディープニューラルネットワークによってパrameter化された、標準化された空間内の可変メッシュとして3D形状を表現する。
  • 畳み込みニューラルネットワークを訓練し、前景マスクとキーポイントの2Dアノテーションのみを用いて、1枚の画像から変形パrameter、カメラポーズ、テクスチャ座標を直接予測する。
  • 標準化されたテクスチャ空間を用いてピクセル単位のテクスチャ値を予測し、異なるインスタンス間で一貫した外観モデリングを可能にする。
  • 微分可能レンダリングを用いて、標準化されたメッシュを画像座標に投影するカメラパrameterを回帰することで、幾何的整合性を強制する。
  • マスク再投影、キーポイントの監視、3D形状再構築損失を組み合わせたマルチタスク損失を用い、すべてをエンドツーエンドで最適化する。
  • 微分可能レンダリングレイヤーを組み込み、3Dメッシュを2D画像空間に微分可能に投影することで、形状およびテクスチャ予測を監視する。

実験結果

リサーチクエスチョン

  • RQ1アノテート済み画像コレクション(3Dデータやマルチビューの教師データなし)のみを用いて、ディーパーニューラルネットワークが1枚の画像から詳細な3Dテクスチャ付きメッシュ再構築を予測できるか?
  • RQ22Dアノテーションのみで訓練されたカテゴリ固有の可変メッシュモデルは、新しいインスタンスや視点にどの程度一般化できるか?
  • RQ33Dテクスチャやマルチビュー画像の教師データがなくても、標準化された空間で効果的にテクスチャを予測・レンダリングできるか?
  • RQ4同じ弱教師付き設定下で、提案手法は従来のフィッティングベースやボリュメトリック予測手法をどの程度上回るか?
  • RQ5提案された変形ベースの表現を用いて、予測された3D形状に対してセマンティックキーポイントを信頼性高く関連付けられるか?

主な発見

  • CUBデータセットにおいて、航空機のマスク再投影IoUは0.46、自動車は0.64を達成し、DRC や CSDM といった先行手法を上回った。
  • PASCAL3D+では、自動車カテゴリの再構築において平均交差率(IoU)が0.64を達成し、類似した監視条件下の従来手法と同等またはそれ以上であった。
  • 平均形状ベースラインよりPCK(正しく検出されたキーポイントの割合)が1%向上し、正規化距離閾値0.1で0.81を達成した。
  • 視覚化により、未学習の視点からも一貫した形状とテクスチャが得られることを示し、予測された3D形状の新しい視点への一般化性能が優れていることを裏付けた。
  • 限られた監視条件下でも、多様なオブジェクトカテゴリのテクスチャを効果的に予測できたが、光沢のある領域(例:自動車)やデータが少ないカテゴリ(例:航空機)では誤差が生じた。
  • 1回の順伝播で形状、カメラ、テクスチャの同時予測が可能であり、反復的フィッティング手法と比較して効率的な推論を実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。