[论文解读] Deep Image Spatial Transformation for Person Image Generation
本文提出了一种全局流-局部注意力框架,用于姿态引导的人体图像生成,该框架在特征层面实现了可微分的、内容感知的特征变形。通过结合全局光流估计与基于局部注意力的采样,该模型在基线方法和现有基于光流的方法之上,实现了更优的细节保留与结构准确性。
Pose-guided person image generation is to transform a source person image to a target pose. This task requires spatial manipulations of source data. However, Convolutional Neural Networks are limited by the lack of ability to spatially transform the inputs. In this paper, we propose a differentiable global-flow local-attention framework to reassemble the inputs at the feature level. Specifically, our model first calculates the global correlations between sources and targets to predict flow fields. Then, the flowed local patch pairs are extracted from the feature maps to calculate the local attention coefficients. Finally, we warp the source features using a content-aware sampling method with the obtained local attention coefficients. The results of both subjective and objective experiments demonstrate the superiority of our model. Besides, additional results in video animation and view synthesis show that our model is applicable to other tasks requiring spatial transformation. Our source code is available at https://github.com/RenYurui/Global-Flow-Local-Attention.
研究动机与目标
- 解决人体图像生成中特征级空间变换的不稳定性与梯度传播不良问题。
- 克服CNN在空间重排方面的局限性以及空间变换网络中仿射变换的刚性问题。
- 实现精确、内容感知的特征采样,以在姿态迁移过程中保留细粒度纹理。
- 展示所提出的模块在其他空间变换任务(如视角合成与视频动画)中的泛化能力。
提出的方法
- 该模型使用全局光流场估计器,计算源姿态与目标姿态之间的全局相关性,并预测用于空间变换的2D光流场。
- 局部神经纹理渲染器基于预测的光流场,从特征图中提取局部块对,以计算局部注意力系数。
- 采用可微分的、自适应的感受野进行内容感知采样,以提升特征重建质量并减少伪影。
- 通过带有学习注意力权重的双线性类似采样操作对源特征进行变形,实现稳定的反向传播。
- 该框架将全局光流估计与局部特征选择解耦,降低了特征与光流场之间的相互约束。
- 模型采用感知损失与对抗性损失进行端到端训练,以保留身份特征与真实感。
实验结果
研究问题
- RQ1基于可微分的全局光流方法能否提升人体图像生成中特征级空间变换的稳定性?
- RQ2内容感知的局部注意力采样与固定或全局注意力相比,在保留纹理细节方面表现如何?
- RQ3与基线方法及基于光流的基线相比,所提出的框架在多大程度上减少了伪影并提升了性能?
- RQ4全局流-局部注意力模块能否泛化到人体图像生成之外的其他空间变换任务?
主要发现
- 所提出的全局流-局部注意力框架在主观与客观评估中均优于基线模型及现有基于光流的方法。
- 消融实验证实,采用可调感受野的内容感知采样相比固定采样或全局注意力,能更有效地减少伪影并提升纹理保真度。
- 该模型生成了具有高感知质量的逼真结果,在姿态迁移过程中保持了如衣物图案与皮肤纹理等精细细节。
- 该方法在视角合成与图像动画任务中也表现出良好的泛化能力,能够生成合理的新视角与具有运动一致性的逼真视频序列。
- 注意力图的可视化显示,模型能够学习聚焦于相关联的局部源特征块,避免无关特征的干扰,从而提升采样准确性。
- 与外观光流和Bi-Sample基线相比,该模型在处理遮挡与大姿态变化方面表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。