QUICK REVIEW

[论文解读] Perspective Transformer Nets: Learning Single-View 3D Object Reconstruction without 3D Supervision

Xinchen Yan, Shuicheng Yan|arXiv (Cornell University)|Dec 1, 2016

Advanced Vision and Imaging被引用 316

一句话总结

本文提出 Perspective Transformer Nets (PTN)，通过基于轮廓的投影损失从单张图像重建3D体积，使训练无需真实3D体积并实现多类别泛化。

ABSTRACT

Understanding the 3D world is a fundamental problem in computer vision. However, learning a good representation of 3D objects is still an open problem due to the high dimensionality of the data and many factors of variation involved. In this work, we investigate the task of single-view 3D object reconstruction from a learning agent's perspective. We formulate the learning process as an interaction between 3D and 2D representations and propose an encoder-decoder network with a novel projection loss defined by the perspective transformation. More importantly, the projection loss enables the unsupervised learning using 2D observation without explicit 3D supervision. We demonstrate the ability of the model in generating 3D volume from a single 2D image with three sets of experiments: (1) learning from single-class objects; (2) learning from multi-class objects and (3) testing on novel object classes. Results show superior performance and better generalization ability for 3D object reconstruction when the projection loss is involved.

研究动机与目标

在单个二维图像中激发学习一个3D物体表示，同时将内在形状与外在视角和光照解耦。
提出一种基于透视变换的投影损失的编码器-解码器架构，以在没有显式3D地面真值的情况下监督3D重建。
演示在单一和多类别对象上的学习，并评估对未见类别的泛化能力。
展示在仅使用部分视图训练时相较于完整方位视图的鲁棒性。

提出的方法

使用一个将2D图像映射到3D体素体积的编码器-解码器网络。
提出 Perspective Transformer Networks，它将预测体积的可微分透视投影到2D轮廓。
将投影轮廓与多视图的真实轮廓之间的均方误差定义为投影损失。
通过一个综合损失允许联合训练，结合投影损失与体积损失进行平衡的监督。
在使用透视变换器训练体积解码器之前，先对编码器进行预训练以学习一个视图不变的潜在表示。

实验结果

研究问题

RQ1是否可以仅从单个2D视图在没有真实3D体积的情况下，使用轮廻廓基投影损失重建3D形状？
RQ2多类别PTN是否比体积监督或单视图方法在未见类别上具有更好的泛化能力？
RQ3在各种对象类别中，仅使用投影损失的训练与采用完整3D监督的训练相比如何？
RQ4使用部分视图对单视图3D重建性能的影响是什么？
RQ5引入投影正则化是否提升对新颖视角的鲁棒性和泛化能力？

主要发现

仅使用投影损失进行训练的模型（PTN-Proj）可以在没有3D监督的情况下重建3D形状；例如，椅子类别的结果显示 PTN-Proj 的 IU 为 0.5712（GT 310）和 0.5027（GT 130）。
综合损失（PTN-Comb）在多类别设置中通常比仅体积训练获得更强的性能，例如椅子结果：0.6435（GT 310）和 0.5067（GT 130）。
仅体积的CNN-Vol在椅子单类别实验中达到0.6390（GT 310）和0.4983（GT 130），在某些情况下与基于投影的方法的性能相当。
在多类别实验中，PTN-Proj和PTN-Comb在若干类别上优于或匹配CNN-Vol（例如飞机、长凳、梳妆台、汽车、椅子、显示器、灯、扬声器、步枪、沙发、桌子、电话、器皿等类别），并给出各类别的IU分数。
跨类别/泛化：在多个类别上训练可以提高对未见类别的泛化能力，相比于单类别训练，投影损失有助于对新形状的鲁棒性（例如床、书架、橱柜、摩托车、火车）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。