QUICK REVIEW

[论文解读] Landmark Guided 4D Facial Expression Generation

Xin Lu, Zhengda Lu|arXiv (Cornell University)|Mar 11, 2026

Face recognition and analysis被引用 0

一句话总结

一个由中性地标引导的系列 LM-4DGAN 生成可变长度的 4D 面部表情序列，位移解码器将地标位移转化为密集网格运动，从而提升身份鲁棒性和时序一致性。

ABSTRACT

In this paper, we proposed a generative model that learns to synthesize the 4D facial expression with the neutral landmark. Existing works mainly focus on the generation of sequences guided by expression labels, speech, etc, while they are not robust to the change of different identities. Our LM-4DGAN utilizes neutral landmarks to guide the facial expression generation while adding an identity discriminator and a landmark autoencoder to the basic WGAN for achieving better identity robustness. Furthermore, we add a cross-attention mechanism to the existing displacement decoder which is suitable for the given identity.

研究动机与目标

以中性地标作为引导，推动鲁棒的 4D 面部表情生成，适应不同身份。
开发一个自粗到精的 GAN 体系（LM-4DGAN），从中性地标和噪声中生成地标序列。
加入身份鉴别器和时序一致性鉴别器以提升真实感和身份鲁棒性。
引入带有跨注意力的位移解码器，将地标位移映射为密集网格顶点位移。
在 CoMA 数据集上评估，并与 Motion3D 比较地标和网格重建精度。

提出的方法

构建一个自粗到精的架构（LM-4DGAN），从随机噪声和中性地标出发，合成地标表情序列。
嵌入一个地标自编码器以更好地建模稀疏的 3D 地标变形。
添加身份判别器（D_iden）和时序一致性判别器（D_coh），并配套损失以确保身份保真和时序一致性。
应用一个位移解码器，将地标位移转换为密集网格顶点位移，并通过与中性地标的跨注意力机制增强。
在 CoMA 数据集上训练，评估地标和网格的逐顶点重建误差；与 Motion3D 对比并进行消融实验（无 L_coh、无 L_iden、无 AE、无注意力）。

实验结果

研究问题

RQ1中性地标是否能引导 4D 面部表情生成，在不同身份间实现鲁棒性？
RQ2加入身份和时序鉴别器是否能提升生成序列的真实感和身份保真度？
RQ3基于跨注意力的位移解码器是否比基线解码器提升网格重建精度？
RQ4拟议的 LM-4DGAN 框架与现有方法（如 Motion3D）在地标和网格重建误差方面的比较如何？
RQ5模型是否能通过串联 LM-4DGAN 的等级，从中性地标出发生成可变长度的 4D 表情？

主要发现

Metric/Component	Motion3D	ours	w/o L_coh	w/o L_iden	w/o AE	w/o atten
landmark	0.750	0.562	0.583	0.668	1.262	-
mesh	5.288	4.324	4.643	4.724	5.257	4.414

所提出的方法在 CoMA 数据集上，相较于 Motion3D，在地标和网格的逐顶点重建误差方面表现更好。
在消融实验中，移除时序一致性损失、身份损失、自编码器或注意力会降低性能，其中移除 AE 时地标误差从 0.562 增至 1.262。
完整的 LM-4DGAN（包含所有组件）的地标和网格结果优于消融变体，表明自编码器、判别器和跨注意力的有效性。
定性结果显示，在不同身份间，身份一致性的表情更准确，相较于 Motion3D 更具一致性。
该模型通过串联 LM-4DGAN 的等级，在中性地标引导下实现可变长度的 4D 表情生成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。