QUICK REVIEW

[论文解读] Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling

Xingyuan Sun, Jiajun Wu|arXiv (Cornell University)|Apr 12, 2018

3D Shape Modeling and Analysis参考文献 60被引用 53

一句话总结

Pix3D 提供一个具有精确二维到三维对齐的大规模真实图像数据集，并引入一个联合形状与姿态模型；它对重建、检索和姿态估计进行基准测试。

ABSTRACT

We study 3D shape modeling from a single image and make contributions to it in three aspects. First, we present Pix3D, a large-scale benchmark of diverse image-shape pairs with pixel-level 2D-3D alignment. Pix3D has wide applications in shape-related tasks including reconstruction, retrieval, viewpoint estimation, etc. Building such a large-scale dataset, however, is highly challenging; existing datasets either contain only synthetic data, or lack precise alignment between 2D images and 3D shapes, or only have a small number of images. Second, we calibrate the evaluation criteria for 3D shape reconstruction through behavioral studies, and use them to objectively and systematically benchmark cutting-edge reconstruction algorithms on Pix3D. Third, we design a novel model that simultaneously performs 3D reconstruction and pose estimation; our multi-task learning approach achieves state-of-the-art performance on both tasks.

研究动机与目标

创建一个包含准确 3D 形状和精确 2D-3D 对齐的大规模真实图像数据集。
将 3D 重建对照人类感知的评估指标进行标定。
在 Pix3D 上基准化现有的 3D 重建、姿态估计和形状检索方法。
提出并验证一个多任务模型，能够从单张图像同时估计 3D 形状和相机姿态。

提出的方法

通过将 IKEA 基于的形状与真实图像和额外物体的 3D 扫描相结合，组建 Pix3D，获得 395 个形状和 10,069 张图像。
使用关键点基的姿态估计将 3D 形状对齐到 2D 图像，通过 Efficient PnP 求解并用 Levenberg–Marquardt 进行细化，同时为嘈杂关键点引入鲁棒性措施。
将 IoU、Chamfer 距离 (CD) 和 Earth Mover’s Distance (EMD) 与人类判断进行标定，以反映感知相似性。
在 Pix3D 上对现有的 3D 重建方法（例如 3D-R2N2、DRC、3D-VAE-GAN）在重建、姿态估计和检索任务上进行基准测试。
开发一个多任务模型，从 RGB 图像预测 2.5D 草图，对其进行编码再解码出 3D 形状和相机姿态；使用一个姿态估计分支进行训练。

实验结果

研究问题

RQ1当前的 3D 重建方法在具有精确 2D-3D 对齐的真实图像上表现如何？
RQ2是否存在一个单一模型可以同时从单张图像估计对象的 3D 形状及其相机姿态？
RQ3哪些评估指标最能反映真实图像上 3D 重建质量的人类感知？
RQ4多任务学习是否能同时提升形状重建和姿态估计性能？

主要发现

Pix3D 包含 395 个 3D 形状和 10,069 张图像，具有像素级 2D-3D 对齐，覆盖九个类别。
Pix3D 在椅子和沙发的 IoU 上优于 PASCAL 3D+ 与 ObjectNet3D，并且与 IKEA 的 IoU 相当：椅子 IoU：PASCAL 0.514，ObjectNet3D 0.570，IKEA 0.748，Pix3D 0.835；沙发 IoU：PASCAL 3D+ 0.813，ObjectNet3D 0.773，IKEA 0.918，Pix3D 0.926。
在人类判断方面，CD 和 EMD 与人类判断的相关性高于 IoU；与人类判断的斯皮尔曼相关系数分别为 IoU vs 人类 0.32，EMD vs 人类 0.43，CD vs 人类 0.49。
一种新颖的多任务模型，预测 2.5D 草图，对它进行编码并解码出 3D 形状和相机姿态，在 Pix3D 的重建、形状检索和姿态估计上实现了最新的结果。
联合姿态估计在某些设置中提升了形状检索，而当检索到的对象姿态相似但形状不同时，姿态分支可能略微降低检索性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。