QUICK REVIEW

[论文解读] Learning to Generate Chairs, Tables and Cars with Convolutional Networks

Alexey Dosovitskiy, Jost Tobias Springenberg|arXiv (Cornell University)|Nov 21, 2014

Generative Adversarial Networks and Image Synthesis参考文献 45被引用 25

一句话总结

本文提出一种生成式转卷积神经网络，能够从对象风格、视角和颜色等高层控制条件，合成逼真的椅子、桌子和汽车的2D图像。该网络在渲染的3D模型上进行训练，通过插值、外推和新对象生成等方式实现泛化，而不仅限于记忆训练样本，同时提升了不同对象之间的对应匹配性能。

ABSTRACT

We train generative 'up-convolutional' neural networks which are able to generate images of objects given object style, viewpoint, and color. We train the networks on rendered 3D models of chairs, tables, and cars. Our experiments show that the networks do not merely learn all images by heart, but rather find a meaningful representation of 3D models allowing them to assess the similarity of different models, interpolate between given views to generate the missing ones, extrapolate views, and invent new objects not present in the training set by recombining training instances, or even two different object classes. Moreover, we show that such generative networks can be used to find correspondences between different objects from the dataset, outperforming existing approaches on this task.

研究动机与目标

开发一种生成模型，利用风格、视角和颜色等高层控制条件，合成逼真的3D物体2D图像。
训练神经网络以超越记忆训练样本的泛化能力，实现插值、外推和新对象生成。
评估网络学习有意义3D表征的能力，以支持跨物体类别之间的知识迁移。
将所学的生成模型应用于实际任务——实现不同物体之间的对应匹配，优于现有方法。

提出的方法

该模型采用深层转卷积神经网络架构，将潜在向量与高层控制条件（物体类别、视角、颜色）映射为2D RGB图像。
通过标准反向传播进行训练，以最小化生成图像与真实图像之间的L2重建误差。
网络在包含不同视角和颜色的椅子、桌子和汽车的渲染3D模型大规模数据集上进行训练。
通过训练过程中学习的共享特征表示实现类别间知识迁移，即使没有显式的跨类别监督。
采用变分推理框架对潜在空间中的不确定性进行建模，对潜在向量施加高斯先验，并使用变分后验进行近似推理。
目标函数结合重建损失与KL散度，通过随机梯度下降进行优化，每个数据点使用一次蒙特卡洛采样。

实验结果

研究问题

RQ1生成式转卷积网络能否从3D模型的2D投影中学习到有意义的3D表征，从而实现超越记忆的泛化？
RQ2该网络在未见组合下，对不同视角和物体风格的插值能力在多大程度上成立？
RQ3网络能否外推到训练期间未见的新视角，或生成训练集中不存在的全新物体设计？
RQ4所学特征能否支持物体类别之间的知识迁移，例如利用桌子的知识生成未见过的椅子视角？
RQ5该生成模型能否有效用于不同物体之间的对应匹配任务，优于现有方法？

主要发现

网络实现了超越记忆的泛化，能够为未见视角和物体组合生成合理图像，表明其已学习到有意义的3D感知表征。
该模型成功实现了类别内及跨类别的不同物体风格之间的插值，生成了合理的中间视图。
网络能够外推到训练期间未见的新视角，表明其已学习到几何与结构先验。
通过重新组合不同训练实例的特征，模型能够生成新颖且合理的物体设计，包括跨类别组合如椅-车混合体。
所学特征在物体对应匹配任务中表现更优，优于现有方法。
采用解耦潜在空间的变分推理框架，支持有意义的特征算术运算，向量加减可产生可解释的图像空间变化。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。