[论文解读] Pose Guided Person Image Generation
本文提出 PG2,一种两阶段框架,在参考图像和目标姿态条件下进行人物图像生成,产生高质量、姿态一致的结果。
This paper proposes the novel Pose Guided Person Generation Network (PG$^2$) that allows to synthesize person images in arbitrary poses, based on an image of that person and a novel pose. Our generation framework PG$^2$ utilizes the pose information explicitly and consists of two key stages: pose integration and image refinement. In the first stage the condition image and the target pose are fed into a U-Net-like network to generate an initial but coarse image of the person with the target pose. The second stage then refines the initial and blurry result by training a U-Net-like generator in an adversarial way. Extensive experimental results on both 128$ imes$64 re-identification images and 256$ imes$256 fashion photos show that our model generates high-quality person images with convincing details.
研究动机与目标
- 提出一个可控的图像生成任务,使其同时以外观(参考图像)和姿态(关键点)为条件。
- 开发一个两阶段架构,以分别学习全局身体结构和外观细节。
- 提出一个姿态嵌入和一个面向姿态的损失,以在合成过程中减少背景伪影。
- 在低分辨率重识别和高分辨率时尚数据集上展示有效性。
提出的方法
- 使用一个两阶段网络(阶段 I:与 U-Net 风格的生成器整合姿态以生成粗略目标;阶段 II:使用条件 DCGAN 进行细化以添加细节)。
- 将目标姿态表示为 18 个热图,并将其与条件图像拼接作为阶段 I 的输入。
- 在阶段 I 中,当计算 L1 损失时,使用姿态 mask 损失以在强调人体而非背景。
- 阶段 II 学习一个差分图 G2(I_A, Ŷ_B1),以 I_A 和阶段 I 的输出为条件,与判别器 D 共同作用于成对 (I_A, Ŷ_B2) 与 (I_A, I_B)。
- 以对抗损失加上掩蔽的 L1 项进行训练,以在清晰度与伪影抑制之间取得平衡。
- 采用两阶段训练计划,并对姿态嵌入(坐标 vs 热图)和损失进行消融研究。
实验结果
研究问题
- RQ1如何在参考外观和目标姿态同时条件化图像生成?
- RQ2两阶段框架是否可以将全局结构学习与高频外观细节分离,以改善姿态传输的人体图像?
- RQ3使用姿态热图作为输入是否比坐标嵌入在姿态准确性和图像质量上更优?
- RQ4面向姿态的损失是否在合成过程中降低背景渗入和伪影?
主要发现
| 模型 | SSIM (DeepFashion) | IS (DeepFashion) | SSIM (Market-1501) | IS (Market-1501) | mask-SSIM | mask-IS |
|---|---|---|---|---|---|---|
| G1-CE-L1 | 0.694 | 2.395 | 0.219 | 2.568 | 0.771 | 2.455 |
| G1-HME-L1 | 0.735 | 2.427 | 0.294 | 3.171 | 0.802 | 2.508 |
| G1-L1 | 0.735 | 2.427 | 0.304 | 3.006 | 0.809 | 2.455 |
| G1-poseMaskLoss | 0.779 | 2.668 | 0.340 | 3.326 | 0.817 | 2.682 |
| G1+D | 0.761 | 3.091 | 0.283 | 3.490 | 0.803 | 3.310 |
| G1+G2+D | 0.762 | 3.090 | 0.253 | 3.460 | 0.792 | 3.435 |
- 姿态热图嵌入优于坐标嵌入及其他变体,带来更好的姿态精度和视觉质量。
- 姿态掩码损失通过将合成聚焦在人体上并减少背景伪影,一贯改善结果。
- 两阶段的 PG2(阶段 I 加阶段 II 的对抗性细化)比单阶段对抗模型产生更尖锐、更真实的结果。
- 定量结果显示在 DeepFashion 和 Market-1501 上的 SSIM 和 Inception Score 较消融变体更高。
- 用户研究表明两阶段模型更具说服力,真实与生成的评级高于单阶段变体。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。