QUICK REVIEW

[论文解读] Hierarchical Cross-Modal Talking Face Generationwith Dynamic Pixel-Wise Loss

Lele Chen, Ross K. Maddox|arXiv (Cornell University)|May 9, 2019

Face recognition and analysis参考文献 35被引用 27

一句话总结

该论文提出了一种分层级联生成对抗网络（GAN）框架，用于生成逼真的说话人脸视频。该方法首先从音频中推断面部关键点，然后基于这些关键点生成视频帧，显著提升了唇部同步效果，并增强了对噪声和姿态变化的鲁棒性。该方法引入了一种带有注意力机制的动态可调像素级损失，以及基于回归的判别器，在LRW、GRID、VoxCeleb和TCD数据集上的定量与定性评估中均达到了最先进性能。

ABSTRACT

We devise a cascade GAN approach to generate talking face video, which is robust to different face shapes, view angles, facial characteristics, and noisy audio conditions. Instead of learning a direct mapping from audio to video frames, we propose first to transfer audio to high-level structure, i.e., the facial landmarks, and then to generate video frames conditioned on the landmarks. Compared to a direct audio-to-image approach, our cascade approach avoids fitting spurious correlations between audiovisual signals that are irrelevant to the speech content. We, humans, are sensitive to temporal discontinuities and subtle artifacts in video. To avoid those pixel jittering problems and to enforce the network to focus on audiovisual-correlated regions, we propose a novel dynamically adjustable pixel-wise loss with an attention mechanism. Furthermore, to generate a sharper image with well-synchronized facial movements, we propose a novel regression-based discriminator structure, which considers sequence-level information along with frame-level information. Thoughtful experiments on several datasets and real-world samples demonstrate significantly better results obtained by our method than the state-of-the-art methods in both quantitative and qualitative comparisons.

研究动机与目标

解决从音频生成逼真、时序一致的说话人脸的挑战，同时对噪声音频和不同面部姿态保持鲁棒性。
通过引入高层面部关键点作为中间模态，减少音频与无关视觉动态（如头部运动、摄像机角度）之间的虚假相关性。
通过多模态RNN生成器建模帧间依赖关系，提升时序一致性并减少像素抖动。
通过带有注意力机制的动态可调像素级损失，增强对音频视觉相关区域（如嘴部运动）的关注。
通过引入新型基于回归的判别器，同时评估序列级与帧级特征，提升真实感与同步性。

提出的方法

采用级联GAN架构：音频 → 面部关键点（通过AT-net） → 视频帧（通过MMCRNN生成器），实现音频到关键点与关键点到图像映射的解耦。
使用多模态卷积RNN（MMCRNN）生成器，建模相邻帧之间的时序依赖关系，提升运动平滑性。
引入动态可调像素级损失（DAL），根据注意力图自适应调整损失权重，聚焦于音频视觉相关区域（如嘴部）。
应用注意力机制，突出视觉动态与语音最相关的区域，减少对无关运动的关注。
提出基于回归的判别器（RD），同时评估帧级像素变化与序列级时序一致性，提升真实感与同步性。
通过对抗损失、感知损失与关键点重建损失的组合进行训练，确保生成结果的保真度与对齐性。

实验结果

研究问题

RQ1采用面部关键点作为中间表示的分层方法，是否能提升在噪声音频与多样化面部姿态下的说话人脸生成鲁棒性？
RQ2带有注意力机制的动态可调像素级损失，是否能提升模型对音频视觉相关区域的关注并减少伪影？
RQ3同时评估帧级与序列级特征的基于回归的判别器，是否能增强时序一致性和真实感？
RQ4DMA、MMCRNN、DAL、RD等各组件在图像质量与唇部同步方面的整体性能中分别起到何种贡献？
RQ5该模型在不同头部姿态与音频条件下，对未见人脸（包括卡通与动物角色）的泛化能力如何？

主要发现

所提出的ATVGnet模型在所有数据集上用户偏好评分最高（平均8.7/10），在感知质量与真实感方面优于最先进方法。
在LRW与GRID数据集上，该模型取得最佳SSIM（0.89）与PSNR（33.84）得分，LMD（关键点距离）分别为0.70与0.76，表明其对齐与质量表现更优。
消融实验表明，移除MMCRNN或DMA会导致性能最大降幅（如PSNR分别降至29.90与30.22），证实二者在时序平滑性与注意力聚焦中的关键作用。
即使在生成的关键点中加入高斯噪声（σ=0.1），模型仍保持高性能，表明对关键点预测误差具有鲁棒性。
用户研究证实，该模型生成的唇部运动与音频同步性最佳，尤其在噪声VoxCeleb样本上表现优异；但在干净VoxCeleb数据上略逊于Chung等人[3]，原因可能为背景噪声影响。
该方法在未见人脸（包括卡通与动物角色）上泛化良好，能生成合理且同步的面部动作，即使这些内容未在训练数据中出现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。