Skip to main content
QUICK REVIEW

[論文レビュー] Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling

Xingyuan Sun, Jiajun Wu|arXiv (Cornell University)|Apr 12, 2018
3D Shape Modeling and Analysis参考文献 60被引用数 53
ひとこと要約

Pix3Dは高精度の2D-3Dアライメントを備えた大規模な実画像データセットを提供し、ジョイントの形状と姿勢モデルを導入します。再構成、取得、姿勢推定をベンチマークします。

ABSTRACT

We study 3D shape modeling from a single image and make contributions to it in three aspects. First, we present Pix3D, a large-scale benchmark of diverse image-shape pairs with pixel-level 2D-3D alignment. Pix3D has wide applications in shape-related tasks including reconstruction, retrieval, viewpoint estimation, etc. Building such a large-scale dataset, however, is highly challenging; existing datasets either contain only synthetic data, or lack precise alignment between 2D images and 3D shapes, or only have a small number of images. Second, we calibrate the evaluation criteria for 3D shape reconstruction through behavioral studies, and use them to objectively and systematically benchmark cutting-edge reconstruction algorithms on Pix3D. Third, we design a novel model that simultaneously performs 3D reconstruction and pose estimation; our multi-task learning approach achieves state-of-the-art performance on both tasks.

研究の動機と目的

  • 実画像と正確な3D形状および正確な2D-3Dアライメントとペアにした大規模データセットを作成する。
  • 3D再構成の評価指標を人間の知覚に合わせてキャリブレーションする。
  • Pix3D上で最先端の3D再構成、姿勢推定、形状取得メソッドをベンチマークする。
  • 単一の画像から3D形状とカメラ姿勢を同時に推定するマルチタスクモデルを提案・検証する。

提案手法

  • IKEAベースの形状と実画像および追加物体の3Dスキャンを組み合わせて395形状と10,069画像を得て、Pix3Dを組み立てる。
  • Efficient PnPを用いて解決されるキーポイントベースの姿勢推定を、ノイズの多いキーポイントに対する頑健性対策を含めてLevenberg–Marquardtで精緻化する。
  • IoU、Chamfer距離(CD)、Earth Mover’s Distance(EMD)を人間の判断に反映するようキャリブレーションする。
  • Pix3D上で再構成、姿勢推定、取得タスクにおいて、3D再構成手法(例:3D-R2N2、DRC、3D-VAE-GAN)をベンチマークする。
  • RGB画像から2.5Dスケッチを予測し、それをエンコードして3D形状とカメラ姿勢のデコードを行うマルチタスクモデルを開発する;姿勢推定ブランチで訓練する。

実験結果

リサーチクエスチョン

  • RQ1現実世界の画像で正確な2D-3Dアライメントを前提とした現行の3D再構成手法はどれだけ良い性能を発揮するか。
  • RQ2単一の画像から物体の3D形状とカメラ姿勢を同時に推定できるモデルは作れるか。
  • RQ3現実画像の3D再構成品質を人間の知覚に最もよく反映する評価指標は何か。
  • RQ4マルチタスク学習は形状再構成と姿勢推定の性能を両方改善するか。

主な発見

  • Pix3Dは9カテゴリにわたる395の3D形状と10,069枚の画像を含み、ピクセルレベルの2D-3Dアライメントを提供する。
  • Pix3DはChairのIoUでPASCAL 3D+およびObjectNet3Dより高く、IKEAと比較して同等または高いChair IoU(Chair IoU: PASCAL 0.514, ObjectNet3D 0.570, IKEA 0.748, Pix3D 0.835; Sofa IoU: PASCAL 3D+ 0.813, ObjectNet3D 0.773, IKEA 0.918, Pix3D 0.926)。
  • 人間の判断は3D再構成品質のCDとEMDとより良く相関し、IoUより高い相関を示す。Spearman相関はIoU vs Human 0.32、EMD vs Human 0.43、CD vs Human 0.49。
  • 2.5Dスケッチを予測し、それをエンコードして3D形状とカメラ姿勢をデコードする新規マルチタスクモデルは、Pix3Dにおける再構成、形状取得、姿勢推定で最先端の結果を達成する。
  • ジョイントな姿勢推定は一部設定で形状取得を改善する一方、同様の姿勢で異なる形状が取得された場合には取得が若干劣化する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。