[论文解读] First Order Motion Model for Image Animation
本文介绍了一种自监督、与对象类别无关的图像动画框架,使用带有学习关键点与局部仿射变换的一阶运动模型,以及一个带遮挡感知的生成器,按照驱动视频对源对象进行动画。它在多个数据集上在没有对象特定先验的情况下实现了更高质量的结果。
Image animation consists of generating a video sequence so that an object in a source image is animated according to the motion of a driving video. Our framework addresses this problem without using any annotation or prior information about the specific object to animate. Once trained on a set of videos depicting objects of the same category (e.g. faces, human bodies), our method can be applied to any object of this class. To achieve this, we decouple appearance and motion information using a self-supervised formulation. To support complex motions, we use a representation consisting of a set of learned keypoints along with their local affine transformations. A generator network models occlusions arising during target motions and combines the appearance extracted from the source image and the motion derived from the driving video. Our framework scores best on diverse benchmarks and on a variety of object categories. Our source code is publicly available.
研究动机与目标
- 在图像动画中解耦外观与运动,且不依赖对象特定的注释或先验。
- 通过学习的关键点和局部仿射变换建模复杂运动。
- 在扭曲/变形过程中处理遮挡,使用一个遮挡感知的生成器。
- 通过等变性增强的训练策略改进运动估计。
- 在多样化对象类别上展示高分辨率结果,并发布新数据集 Thai-Chi-HD。
提出的方法
- 两阶段运动估计:使用自监督的编码器-解码器检测稀疏关键点及其周围的局部仿射变换。
- 将局部运动与密集运动网络结合,产生从驱动帧到源帧的反向光流和遮挡图。
- 使用以密集运动和遮挡图为条件的生成器,将源图像进行扭曲和修复。
- 使用遮挡感知的特征扭曲流水线,将源特征与目标对齐并修补遮挡区域。
- 扩展等变损失,以在已知几何变换下强制关键点及其雅可比矩阵的一致性。
- 在同一对象类别的视频上端到端训练(在关键点注释方面无监督)。
- 测试阶段通过将驱动帧之间的相对运动应用到源帧来执行相对运动迁移。
实验结果
研究问题
- RQ1基于对象类别无关的运动表示(学习的关键点及局部仿射变换)是否能够在无注释的情况下可靠地对多样对象进行动画?
- RQ2将遮挡建模和雅可比等变性引入是否能比零阶关键点模型提升动画质量?
- RQ3与现有方法相比,所提出的方法在高分辨率数据集及不同对象类别上的表现如何?
- RQ4在测试时,相对运动迁移与绝对运动迁移的影响是什么?
主要发现
- 所提出的方法在多个数据集上的定量和定性评估中优于现有最先进的图像动画方法。
- 在学习的关键点周围使用局部仿射变换,相较于零阶方法,改善了对大姿态和非刚性运动的建模。
- 遮挡感知生成通过明确处理源图像中不可见区域,显著提升重建质量和真实感。
- 对关键点和雅可比矩阵的等变性约束稳定了训练并改善了运动估计。
- 可达到高分辨率结果,并引入新的 Thai-Chi-HD 数据集用于评估。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。