Skip to main content
QUICK REVIEW

[论文解读] Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling

Xingyuan Sun, Jiajun Wu|arXiv (Cornell University)|Apr 12, 2018
3D Shape Modeling and Analysis参考文献 60被引用 53
一句话总结

Pix3D 提供一个具有精确二维到三维对齐的大规模真实图像数据集,并引入一个联合形状与姿态模型;它对重建、检索和姿态估计进行基准测试。

ABSTRACT

We study 3D shape modeling from a single image and make contributions to it in three aspects. First, we present Pix3D, a large-scale benchmark of diverse image-shape pairs with pixel-level 2D-3D alignment. Pix3D has wide applications in shape-related tasks including reconstruction, retrieval, viewpoint estimation, etc. Building such a large-scale dataset, however, is highly challenging; existing datasets either contain only synthetic data, or lack precise alignment between 2D images and 3D shapes, or only have a small number of images. Second, we calibrate the evaluation criteria for 3D shape reconstruction through behavioral studies, and use them to objectively and systematically benchmark cutting-edge reconstruction algorithms on Pix3D. Third, we design a novel model that simultaneously performs 3D reconstruction and pose estimation; our multi-task learning approach achieves state-of-the-art performance on both tasks.

研究动机与目标

  • 创建一个包含准确 3D 形状和精确 2D-3D 对齐的大规模真实图像数据集。
  • 将 3D 重建对照人类感知的评估指标进行标定。
  • 在 Pix3D 上基准化现有的 3D 重建、姿态估计和形状检索方法。
  • 提出并验证一个多任务模型,能够从单张图像同时估计 3D 形状和相机姿态。

提出的方法

  • 通过将 IKEA 基于的形状与真实图像和额外物体的 3D 扫描相结合,组建 Pix3D,获得 395 个形状和 10,069 张图像。
  • 使用关键点基的姿态估计将 3D 形状对齐到 2D 图像,通过 Efficient PnP 求解并用 Levenberg–Marquardt 进行细化,同时为嘈杂关键点引入鲁棒性措施。
  • 将 IoU、Chamfer 距离 (CD) 和 Earth Mover’s Distance (EMD) 与人类判断进行标定,以反映感知相似性。
  • 在 Pix3D 上对现有的 3D 重建方法(例如 3D-R2N2、DRC、3D-VAE-GAN)在重建、姿态估计和检索任务上进行基准测试。
  • 开发一个多任务模型,从 RGB 图像预测 2.5D 草图,对其进行编码再解码出 3D 形状和相机姿态;使用一个姿态估计分支进行训练。

实验结果

研究问题

  • RQ1当前的 3D 重建方法在具有精确 2D-3D 对齐的真实图像上表现如何?
  • RQ2是否存在一个单一模型可以同时从单张图像估计对象的 3D 形状及其相机姿态?
  • RQ3哪些评估指标最能反映真实图像上 3D 重建质量的人类感知?
  • RQ4多任务学习是否能同时提升形状重建和姿态估计性能?

主要发现

  • Pix3D 包含 395 个 3D 形状和 10,069 张图像,具有像素级 2D-3D 对齐,覆盖九个类别。
  • Pix3D 在椅子和沙发的 IoU 上优于 PASCAL 3D+ 与 ObjectNet3D,并且与 IKEA 的 IoU 相当:椅子 IoU:PASCAL 0.514,ObjectNet3D 0.570,IKEA 0.748,Pix3D 0.835;沙发 IoU:PASCAL 3D+ 0.813,ObjectNet3D 0.773,IKEA 0.918,Pix3D 0.926。
  • 在人类判断方面,CD 和 EMD 与人类判断的相关性高于 IoU;与人类判断的斯皮尔曼相关系数分别为 IoU vs 人类 0.32,EMD vs 人类 0.43,CD vs 人类 0.49。
  • 一种新颖的多任务模型,预测 2.5D 草图,对它进行编码并解码出 3D 形状和相机姿态,在 Pix3D 的重建、形状检索和姿态估计上实现了最新的结果。
  • 联合姿态估计在某些设置中提升了形状检索,而当检索到的对象姿态相似但形状不同时,姿态分支可能略微降低检索性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。