[论文解读] Unsupervised Person Image Generation with Semantic Parsing Transformation
本文提出了一种无监督的人像图像生成框架,将姿态引导的图像合成分解为两个阶段:语义分割图转换与外观生成。通过使用循环一致性损失和语义感知风格损失进行端到端训练,该方法在保留衣物属性和提升人体形状保真度方面表现优异,在DeepFashion和Market-1501数据集上优于以往的无监督方法,尤其在属性保留和结构一致性方面表现突出。
In this paper, we address unsupervised pose-guided person image generation, which is known challenging due to non-rigid deformation. Unlike previous methods learning a rock-hard direct mapping between human bodies, we propose a new pathway to decompose the hard mapping into two more accessible subtasks, namely, semantic parsing transformation and appearance generation. Firstly, a semantic generative network is proposed to transform between semantic parsing maps, in order to simplify the non-rigid deformation learning. Secondly, an appearance generative network learns to synthesize semantic-aware textures. Thirdly, we demonstrate that training our framework in an end-to-end manner further refines the semantic maps and final results accordingly. Our method is generalizable to other semantic-aware person image generation tasks, eg, clothing texture transfer and controlled image manipulation. Experimental results demonstrate the superiority of our method on DeepFashion and Market-1501 datasets, especially in keeping the clothing attributes and better body shapes.
研究动机与目标
- 解决无配对训练数据下无监督姿态引导的人像图像生成挑战。
- 克服在图像合成中建模非刚性人体形变以及保留衣物属性的困难。
- 通过将直接图像到图像映射分解为语义分割图转换与外观生成,降低模型复杂度。
- 实现对下游任务(如衣物纹理迁移和可控图像编辑)的泛化能力。
- 通过端到端训练提升语义图预测质量,同时优化分割图与最终图像输出。
提出的方法
- 该框架将人像图像生成分解为两个模块:语义分割图转换与外观生成。
- 语义生成网络在姿态条件约束下实现源图像与目标图像之间的分割图转换,简化了非刚性形变的学习过程。
- 外观生成网络利用语义感知风格损失,在转换后的分割图上合成逼真的纹理。
- 通过伪标签和循环一致性损失进行无配对监督的语义生成器训练。
- 语义感知风格损失确保纹理映射尊重语义区域,从而保留袖长、面料图案等属性。
- 端到端训练联合优化两个模块,实现对预测语义图的优化与图像质量的提升。
实验结果
研究问题
- RQ1通过将复杂的图像到图像映射解耦为语义分割图转换与外观合成,能否提升无监督人像图像生成性能?
- RQ2语义分割图转换在图像生成中如何降低非刚性人体形变建模的难度?
- RQ3在缺乏配对监督的情况下,端到端训练在多大程度上能优化语义图预测并提升最终图像质量?
- RQ4所提出的框架能否泛化到其他条件图像生成任务(如衣物纹理迁移与布局控制的图像编辑)?
- RQ5语义感知风格损失在外观生成过程中对保留衣物属性起到了何种作用?
主要发现
- 端到端训练策略显著提升了语义图预测质量,相比两阶段训练,能更好地保留人体形状与衣物属性。
- 在DeepFashion数据集上,端到端模型的性能与使用真实语义图的两阶段基线模型相当。
- 在Market-1501数据集上,端到端模型甚至优于使用真实语义图的两阶段基线模型,原因在于其对低分辨率语义图错误具有更强的鲁棒性。
- 语义感知风格损失对保留细粒度衣物属性至关重要;若替换为掩码风格或补丁风格损失,则会导致轮廓失真与伪影。
- 人脸对抗损失有效提升了生成人脸的真实感,从而整体提升了视觉质量。
- 外观生成器通过修改语义图实现了成功的衣物纹理迁移与可控图像编辑,证明了该框架的多功能性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。