QUICK REVIEW

[论文解读] Transformation-Grounded Image Generation Network for Novel 3D View Synthesis

Eunbyung Park, Shuicheng Yan|arXiv (Cornell University)|Mar 8, 2017

Advanced Vision and Imaging参考文献 44被引用 36

一句话总结

本文提出了一种基于变换的图像生成网络（TVSN），用于从单张图像生成新颖的3D视角。通过显式预测像素流和可见性图以建模视角变换，TVSN 通过细化网络幻化遮挡区域并校正失真，从而在合成图像和真实图像上均实现了最先进的真实感、细节表现和3D重建保真度。

ABSTRACT

We present a transformation-grounded image generation network for novel 3D view synthesis from a single image. Instead of taking a 'blank slate' approach, we first explicitly infer the parts of the geometry visible both in the input and novel views and then re-cast the remaining synthesis problem as image completion. Specifically, we both predict a flow to move the pixels from the input to the novel view along with a novel visibility map that helps deal with occulsion/disocculsion. Next, conditioned on those intermediate results, we hallucinate (infer) parts of the object invisible in the input image. In addition to the new network structure, training with a combination of adversarial and perceptual loss results in a reduction in common artifacts of novel view synthesis such as distortions and holes, while successfully generating high frequency details and preserving visual aspects of the input image. We evaluate our approach on a wide range of synthetic and real examples. Both qualitative and quantitative results show our method achieves significantly better results compared to existing methods.

研究动机与目标

解决从单张输入图像生成逼真新颖3D视角的挑战，特别是处理非可见区域和缺失几何结构的问题。
通过结合显式的3D变换推理与图像补全，克服纯生成模型和基于几何方法的局限性。
通过减少失真和孔洞等伪影，提升合成视角的视觉质量。
实现适合下游3D重建任务的高分辨率、细节保持型新颖视角合成。
通过在具有随机背景的合成数据上进行训练，提升对复杂场景的鲁棒性，从而实现对真实世界图像的泛化。

提出的方法

引入一种非可见区域感知的外观流网络（DOAFN），用于从输入图像预测像素级变换流和可见性图。
利用预测的流和可见性图生成一种带蒙版的变换输入，以引导图像生成过程。
采用两阶段编码器-解码器架构：第一阶段为DOAFN，用于预测变换和可见性；第二阶段为细化网络，用于图像补全。
将图像生成器条件化于带蒙版的变换输入，以幻化不可见区域并优化失真区域。
使用结合感知（VGG16）和对抗性损失的联合损失函数进行训练，以增强真实感和细节保持能力。
利用多视角立体重建方法评估3D一致性，通过生成的视角构建纹理化3D网格。

实验结果

研究问题

RQ1显式建模3D视角变换是否能提升新颖视角合成中的图像生成质量？
RQ2可见性感知的流预测在多大程度上能减少合成视角中的孔洞和失真等伪影？
RQ3基于变换的图像生成流程在多大程度上能生成适合高质量3D重建的视角？
RQ4该方法能否在具有复杂背景和光照条件的真实图像上实现泛化？
RQ5与标准损失函数相比，结合对抗性和感知损失是否能带来更好的细节表现和真实感？

主要发现

TVSN 在3D ShapeNet数据集上取得了优越的定性结果，生成的纹理更清晰，几何结构更一致，优于以往方法。
VGG16与对抗性损失的结合产生了最佳视觉质量，与L1或特征重建基线相比，显著减少了失真和孔洞。
TVSN生成的视角通过多视角立体重建生成的纹理化3D网格质量高于AFN或其他基线方法。
在来自网络的真实图像上，TVSN 生成了合理的新视角，几何结构和外观保持一致，但光照和背景一致性仍是挑战。
该方法能基于学习到的3D形状先验，成功合成缺失部分（如后轮、前灯），即使在输入中不可见。
该方法实现了从单张图像的360°视角合成，重建的3D模型展现出更优的纹理和几何精度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。