[论文解读] Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis
本文提出Liquid Warping GAN,一种统一框架,通过3D身体网格解耦与一种液态形变模块(LWB),实现人体动作模仿、外观迁移与新视角合成。LWB通过融合图像空间与特征空间中的特征,保留源图像的身份与细节。该方法在保留面部身份、衣物细节与形状一致性方面达到最先进性能,尤其在遮挡与多源设置下表现优异。
We tackle the human motion imitation, appearance transfer, and novel view synthesis within a unified framework, which means that the model once being trained can be used to handle all these tasks. The existing task-specific methods mainly use 2D keypoints (pose) to estimate the human body structure. However, they only expresses the position information with no abilities to characterize the personalized shape of the individual person and model the limbs rotations. In this paper, we propose to use a 3D body mesh recovery module to disentangle the pose and shape, which can not only model the joint location and rotation but also characterize the personalized body shape. To preserve the source information, such as texture, style, color, and face identity, we propose a Liquid Warping GAN with Liquid Warping Block (LWB) that propagates the source information in both image and feature spaces, and synthesizes an image with respect to the reference. Specifically, the source features are extracted by a denoising convolutional auto-encoder for characterizing the source identity well. Furthermore, our proposed method is able to support a more flexible warping from multiple sources. In addition, we build a new dataset, namely Impersonator (iPER) dataset, for the evaluation of human motion imitation, appearance transfer, and novel view synthesis. Extensive experiments demonstrate the effectiveness of our method in several aspects, such as robustness in occlusion case and preserving face identity, shape consistency and clothes details. All codes and datasets are available on https://svip-lab.github.io/project/impersonator.html
研究动机与目标
- 通过将动作模仿、外观迁移与新视角合成统一于单一框架,解决现有任务专用流水线在人体图像生成中的局限性。
- 克服现有姿态引导GAN中常见的源身份与细节保真度退化问题,尤其在面部身份与衣物纹理方面。
- 支持灵活的多源形变,例如将一个源的头部与另一个源的身体结合,以提升外观迁移中局部身份的保留效果。
- 开发一种鲁棒方法,有效保持形状一致性,并妥善处理自遮挡与大姿态变化。
- 引入全新基准数据集iPER,用于在一致设置下评估与比较所有三项任务的方法。
提出的方法
- 采用3D身体网格恢复模块,解耦姿态与形状,实现对关节点位置、旋转与个性化身体结构的精确建模,超越2D关键点表示。
- 设计液态形变模块(LWB),通过图像空间与特征空间双重传播源特征,将局部部件特征融合至全局特征流,以保留身份与纹理。
- 使用去噪卷积自编码器提取鲁棒的源特征,即使在下采样操作下仍能保留颜色、风格、纹理与面部身份。
- 通过独立处理来自不同源图像的特征(如一个源的头部、另一个源的身体),并将其融合为统一的特征表示,实现多源形变。
- 结合对抗训练、感知损失与身份感知损失,提升生成图像的真实感与保真度。
- 仅训练一次统一模型,即可部署于所有三项任务——动作模仿、外观迁移与新视角合成,无需重新训练。
实验结果
研究问题
- RQ1单一深度学习框架能否在保持一致性能的前提下,有效统一人体动作模仿、外观迁移与新视角合成?
- RQ2在大几何形变下,如何在姿态操控与新视角合成过程中有效保留源身份,包括面部身份与衣物细节?
- RQ3与基于2D关键点的方法相比,使用3D身体网格恢复在提升形状一致性和姿态准确性方面有多大改进?
- RQ4如液态形变模块(LWB)这样的新型形变机制,是否能超越传统拼接、纹理形变或特征形变,在保留源特定属性方面表现更优?
- RQ5该模型在未见视角与域外参考图像(尤其是遮挡或复杂姿态场景)下的泛化能力如何?
主要发现
- 在iPER数据集上,该方法在动作模仿任务中取得最高的SSIM(0.840)与最低的LPIPS(0.087),优于PG2、SHUP、DSC等基线方法。
- 该方法能准确保留源身体形状,避免2D姿态引导方法(如PG2与DSC)中常见的身高或比例失真问题。
- 在自遮挡场景(如面部被遮挡)下,该方法生成的图像内容比竞争方法更真实、更连贯。
- 无论参考图像来自不同域(如网络图片),该模型均能保持高保真的面部身份与衣物纹理细节,贯穿所有任务。
- 基于LWB的方法显著优于基线:相比最佳基线($W_F$),LPIPS降低14.8%,表明感知相似性更优。
- 该框架成功实现新视角合成,可在12个视角(30°至330°)生成合理且一致的图像,即使在遮挡视角中不可见部分也能合理推断。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。