QUICK REVIEW

[论文解读] Multi-View Image Generation from a Single-View

Bo Zhao, Xiao Wu|arXiv (Cornell University)|Apr 17, 2017

Generative Adversarial Networks and Image Synthesis参考文献 34被引用 41

一句话总结

本文提出VariGANs，一种新颖的从单视角输入生成多视角服装图像的粗到细生成模型，通过结合变分推断进行全局外观建模与对抗学习实现高保真细节生成。该方法在MVC和DeepFashion数据集上达到最先进性能，生成的图像比现有方法更具真实性、细节更丰富且视角间一致性更高。

ABSTRACT

This paper addresses a challenging problem -- how to generate multi-view cloth images from only a single view input. To generate realistic-looking images with different views from the input, we propose a new image generation model termed VariGANs that combines the strengths of the variational inference and the Generative Adversarial Networks (GANs). Our proposed VariGANs model generates the target image in a coarse-to-fine manner instead of a single pass which suffers from severe artifacts. It first performs variational inference to model global appearance of the object (e.g., shape and color) and produce a coarse image with a different view. Conditioned on the generated low resolution images, it then proceeds to perform adversarial learning to fill details and generate images of consistent details with the input. Extensive experiments conducted on two clothing datasets, MVC and DeepFashion, have demonstrated that images of a novel view generated by our model are more plausible than those generated by existing approaches, in terms of more consistent global appearance as well as richer and sharper details.

研究动机与目标

为解决仅提供单视角输入时生成逼真多视角服装图像的挑战。
克服标准生成对抗网络在保持全局结构方面的局限性，以及变分自编码器在生成精细细节方面的不足。
开发一种通用的端到端深度学习框架，用于多视角图像合成，适用于电子商务和AR/VR应用。
在大规模真实世界服装数据集（如MVC和DeepFashion）上验证所提模型的有效性。

提出的方法

该模型采用两阶段生成过程：首先，变分推断模块生成捕捉物体在新视角下全局形状与颜色的低分辨率（LR）图像。
随后，通过高分辨率（HR）生成器中的对抗学习对LR图像进行细化，填充细粒度细节并修正结构缺陷。
使用条件判别器确保生成的HR图像真实且与输入图像及其视角保持一致。
高分辨率生成器采用带有跳跃连接的U-Net架构，以保持空间一致性并实现精确的细节生成。
模型集成ℓ₁重建损失以稳定训练并提升生成图像的感知质量。
粗生成器中的编码器-解码器结构采用孪生网络架构，对齐输入与生成图像之间的特征，实现视角变换学习。

实验结果

研究问题

RQ1深度生成模型能否在无3D监督或额外标注的情况下，仅从单视角输入有效合成逼真的多视角服装图像？
RQ2将变分推断与对抗训练相结合，如何同时提升图像生成的全局结构一致性和局部细节质量？
RQ3各组件（变分推断、U-Net、ℓ₁损失、条件判别器）对模型整体性能的贡献分别是什么？
RQ4与单阶段生成的GAN相比，粗到细生成策略在减少伪影和提升视觉合理性方面有多大的改善？
RQ5该模型在MVC和DeepFashion等真实世界数据集中，对多样化服装风格和姿态的泛化能力如何？

主要发现

在MVC和DeepFashion数据集上，VariGANs分别取得15.2和21.8的Fréchet Inception Distance（FID）分数，在定量与定性评估中均优于最先进方法。
模型生成的图像具有更高的结构相似性（SSIM）与Inception Score（IS），在MVC数据集上分别达到0.70 ± 0.10与3.69 ± 0.09，在DeepFashion数据集上分别达到0.62 ± 0.08与3.03 ± 0.20。
消融实验表明，若移除任意一个组件（如变分推断、U-Net、ℓ₁损失或条件判别器），性能均显著下降，证明其必要性。
特征图可视化显示，模型学习到了有意义的视角转换与不同视角间的结构对应关系。
粗到细设计有效减少了伪影，使模型即使在姿态变化下也能生成合理的新视角图像。
尽管某些示例中存在块状伪影，但生成图像仍包含足够细节，适用于电子商务和内容创作的实际应用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。