Skip to main content
QUICK REVIEW

[论文解读] Weakly-supervised Disentangling with Recurrent Transformations for 3D View Synthesis

Shuicheng Yan, Scott Reed|arXiv (Cornell University)|Jan 5, 2016
Face recognition and analysis参考文献 30被引用 275
一句话总结

提出一种循环卷积编码器-解码器,从单张图像合成未见3D对象的旋转视图,并在身份和姿态的弱监督分离。

ABSTRACT

An important problem for both graphics and vision is to synthesize novel views of a 3D object from a single image. This is particularly challenging due to the partial observability inherent in projecting a 3D object onto the image space, and the ill-posedness of inferring object shape and pose. However, we can train a neural network to address the problem if we restrict our attention to specific object categories (in our case faces and chairs) for which we can gather ample training data. In this paper, we propose a novel recurrent convolutional encoder-decoder network that is trained end-to-end on the task of rendering rotated objects starting from a single image. The recurrent structure allows our model to capture long-term dependencies along a sequence of transformations. We demonstrate the quality of its predictions for human faces on the Multi-PIE dataset and for a dataset of 3D chair models, and also show its ability to disentangle latent factors of variation (e.g., identity and pose) without using full supervision.

研究动机与目标

  • 实现从单张图像进行3D视图合成,适用于如人脸和椅子等对象类别。
  • 通过循环结构学习长期姿态变换,以遍历姿态流形。
  • 在预测旋转的同时,无需显式监督地解耦身份与姿态因素。
  • 证明可应用于新对象以及跨视角识别。
  • 研究在身份与姿态上的插值,以生成新的对象实例。

提出的方法

  • 使用深层卷积编码器从输入图片提取身份与姿态特征。
  • 引入姿态单元和动作输入以建模局部姿态变化,形成一个循环姿态预测器。
  • 应用带有固定身份单元和变换姿态单元的循环卷积编码器-解码器来生成旋转视图。
  • 在每个时间步提供一个控制信号,以沿着姿态流形移动。
  • 通过逐步增加旋转步长序列长度进行课程学习训练。
  • 在所有步骤上优化像素级重建损失,以推动一致的长期预测。

实验结果

研究问题

  • RQ1循环卷积编码器-解码器是否能够学习旋转3D对象并从单张输入图像渲染新的视图?
  • RQ2课程学习是否有助于长期姿态轨迹预测,并在没有显式标签的情况下实现身份与姿态的解耦?
  • RQ3在未见对象实例(人脸、椅子)上的表现以及跨视角识别的表现如何?
  • RQ4模型是否能在保持真实感的前提下,对身份和姿态进行插值以生成新对象?

主要发现

  • 模型在多步旋转下为未见的人脸和椅子产生高质量、平滑的渲染。
  • 课程学习提高了图像合成质量和姿态不变识别性能。
  • 解耦的身份与姿态表示使跨视角识别在没有类别标签的情况下成为可能,身份单元提供强烈的视角不变身份信号。
  • 椅子插值展示了平滑的风格转换,同时保持旋转视图。
  • 该方法在跨视角识别方面与CNN相比具有竞争力,在较大视点差异时表现优于基线图像方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。