Skip to main content
QUICK REVIEW

[论文解读] Soft-Gated Warping-GAN for Pose-Guided Person Image Synthesis

Haoye Dong, Xiaodan Liang|arXiv (Cornell University)|Oct 27, 2018
Generative Adversarial Networks and Image Synthesis参考文献 33被引用 39
一句话总结

本文提出了一种软门控形变生成对抗网络(Soft-Gated Warping-GAN),用于姿态引导的人体图像合成。该方法首先从目标姿态生成部件分割图,然后利用软门控形变模块将源图像的特征迁移至目标布局。该方法在显著提升真实感并减少伪影方面取得了最先进性能,尤其在大姿态变化下表现更优。

ABSTRACT

Despite remarkable advances in image synthesis research, existing works often fail in manipulating images under the context of large geometric transformations. Synthesizing person images conditioned on arbitrary poses is one of the most representative examples where the generation quality largely relies on the capability of identifying and modeling arbitrary transformations on different body parts. Current generative models are often built on local convolutions and overlook the key challenges (e.g. heavy occlusions, different views or dramatic appearance changes) when distinct geometric changes happen for each part, caused by arbitrary pose manipulations. This paper aims to resolve these challenges induced by geometric variability and spatial displacements via a new Soft-Gated Warping Generative Adversarial Network (Warping-GAN), which is composed of two stages: 1) it first synthesizes a target part segmentation map given a target pose, which depicts the region-level spatial layouts for guiding image synthesis with higher-level structure constraints; 2) the Warping-GAN equipped with a soft-gated warping-block learns feature-level mapping to render textures from the original image into the generated segmentation map. Warping-GAN is capable of controlling different transformation degrees given distinct target poses. Moreover, the proposed warping-block is light-weight and flexible enough to be injected into any networks. Human perceptual studies and quantitative evaluations demonstrate the superiority of our Warping-GAN that significantly outperforms all existing methods on two large datasets.

研究动机与目标

  • 解决在任意姿态变换下人体图像合成中因大空间错位与几何可变性带来的挑战。
  • 克服现有模型依赖局部卷积、在大姿态变化下难以建模部件级结构一致性的局限。
  • 通过目标姿态引导的部件分割图引入高层结构约束,提升图像质量。
  • 设计一种轻量化、灵活的形变机制,根据姿态差异自适应调整变换程度。
  • 实现更真实、无伪影的人体图像生成,尤其在极端姿态变化下表现更优。

提出的方法

  • 采用姿态引导的解析模块,从给定目标姿态生成目标部件分割图,为图像合成提供高层结构引导。
  • 设计软门控形变生成对抗网络(Soft-Gated Warping-GAN),利用软门控形变模块从源图像学习到目标分割图的几何特征映射。
  • 引入轻量化几何匹配器,用于估计源特征图与目标特征图之间的变换参数。
  • 使用软门控函数动态控制形变程度,基于源姿态与目标姿态的相似性进行调节——姿态差异越大,形变程度越高;差异越小,形变程度越低。
  • 在形变模块中集成注意力机制,以在形变过程中选择性聚焦于有效特征图。
  • 采用多组件损失函数进行端到端训练,包括对抗损失、感知损失、L1损失和分割一致性损失,以增强真实感与结构保真度。

实验结果

研究问题

  • RQ1姿态引导的解析模块是否能提升在大姿态变化下人体图像合成的结构一致性?
  • RQ2软门控形变模块如何增强特征层面的对齐性并减少任意姿态下图像合成的伪影?
  • RQ3在真实感与结构准确性方面,所提方法相较于现有基于生成对抗网络的模型,优势程度如何?
  • RQ4将部件级分割图整合是否能带来对纹理渲染与边界保持的更好控制?
  • RQ5软门控机制在根据姿态差异自适应调节变换强度方面是否具有显著有效性?

主要发现

  • 所提方法在DeepFashion与Market-1501两个数据集上,无论在定量指标还是人类感知评估中,均显著优于现有最先进方法。
  • 在MTurk上进行的人类感知研究显示,96.3%的标注者更偏好本方法生成的结果,优于BodyROI7在DeepFashion数据集上的表现。
  • 消融实验表明,若移除软门控形变模块,性能出现剧烈下降,证明其在特征对齐与真实感生成中的关键作用。
  • 引入姿态引导的解析模块显著提升了生成质量,通过部件分割图提供了更高层次的结构约束。
  • 损失函数的每一项(对抗损失、感知损失、L1损失、分割一致性损失)均对最终结果有显著贡献,四者联合使用时性能最佳。
  • 定性结果表明,该方法生成的图像更清晰、细节更丰富、更自然,尤其在遮挡严重或姿态剧烈变化的区域伪影更少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。