QUICK REVIEW

[论文解读] Arbitrary Talking Face Generation via Attentional Audio-Visual Coherence Learning

Hao Zhu, Huaibo Huang|arXiv (Cornell University)|Dec 17, 2018

Speech and Audio Processing参考文献 40被引用 28

一句话总结

本文提出了一种新颖的说话人脸生成框架，通过引入非对称互信息估计器（AMIE）以最大化音频与视频模态之间的共享信息，并通过动态注意力（DA）模块选择性地关注唇部区域，从而增强音视频一致性和唇部同步效果。该方法在LRW和GRID数据集上实现了最先进性能，PSNR、SSIM和LMD指标均有显著提升，展现出对身份和姿态变化的强鲁棒性。

ABSTRACT

Talking face generation aims to synthesize a face video with precise lip synchronization as well as a smooth transition of facial motion over the entire video via the given speech clip and facial image. Most existing methods mainly focus on either disentangling the information in a single image or learning temporal information between frames. However, cross-modality coherence between audio and video information has not been well addressed during synthesis. In this paper, we propose a novel arbitrary talking face generation framework by discovering the audio-visual coherence via the proposed Asymmetric Mutual Information Estimator (AMIE). In addition, we propose a Dynamic Attention (DA) block by selectively focusing the lip area of the input image during the training stage, to further enhance lip synchronization. Experimental results on benchmark LRW dataset and GRID dataset transcend the state-of-the-art methods on prevalent metrics with robust high-resolution synthesizing on gender and pose variations.

研究动机与目标

解决现有说话人脸生成方法中跨模态音视频一致性不足的问题。
通过建模音频与视觉模态之间的相互依赖关系，提升唇部同步效果。
通过在训练过程中动态关注身份相关与运动相关特征，增强特征解耦。
开发一个能够泛化至任意身份、姿态与表达风格的鲁棒框架。
通过全面的消融实验与用户研究，验证所提出AMIE与DA组件的有效性。

提出的方法

提出一种非对称互信息估计器（AMIE），采用基于Jensen-Shannon散度的互信息估计方法，以最大化音频与视频之间的共享信息，避免在生成对抗网络（GAN）训练初期产生偏差估计。
采用非对称训练策略：使用真实图像-音频配对样本训练互信息估计器，同时在GAN训练过程中最大化生成视频与输入音频之间的互信息。
提出一种动态注意力（DA）模块，自适应地关注代表身份的面部图像与前一帧生成结果，以实现身份与运动特征的分离。
采用条件生成对抗网络（conditional GAN）框架，其中生成器以语音和参考人脸图像为条件，AMIE与DA被集成至生成器与判别器中。
利用基于Jensen-Shannon互信息估计器的特征级损失，以稳定训练并提升时序一致性。
采用多尺度判别器，以增强生成人脸视频的逼真度与时序一致性。

实验结果

研究问题

RQ1音频与视觉模态之间的互信息估计能否提升说话人脸生成中的唇部同步效果？
RQ2互信息估计器的非对称训练是否能带来更稳定且高效的音视频一致性学习？
RQ3动态注意力机制能否在任意身份说话人脸生成中提升身份与运动特征的解耦效果？
RQ4所提出的AMIE与DA框架在视觉质量与时序一致性方面相较于最先进方法表现如何？
RQ5该模型在多样化身份、姿态与表达风格下的泛化能力如何？

主要发现

在LRW数据集上，所提方法实现了29.64的PSNR、0.92的SSIM与1.18的LMD，优于先前最先进方法。
在GRID数据集上，方法实现了31.01的PSNR、0.97的SSIM与0.78的LMD，展现出强大的跨数据集泛化能力。
消融实验表明，采用非对称训练与JS估计器的AMIE相比基线模型，PSNR提升0.58，SSIM提升0.03。
仅使用动态注意力（DA）模块即可使PSNR提升0.26，SSIM提升0.01，表明其在唇部运动精度方面具有显著贡献。
用户研究结果显示，56.41%的参与者认为本方法生成结果更具真实感，48.91%认为其时序同步性更优。
模型在性别与姿态变化下仍保持高性能，表明其对身份与外观多样性的强鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。