QUICK REVIEW

[论文解读] EARTalking: End-to-end GPT-style Autoregressive Talking Head Synthesis with Frame-wise Control

Yuzhe Weng, Haotian Wang|arXiv (Cornell University)|Mar 19, 2026

Generative Adversarial Networks and Image Synthesis被引用 0

一句话总结

EARTalking 引入一种端到端 GPT 风格的自回归框架，用于逐帧音频驱动的说话人头部生成，具备逐帧上下文控制和 Sink Frame Window Attention 以实现可变长度推断与身份一致输出。

ABSTRACT

Audio-driven talking head generation aims to create vivid and realistic videos from a static portrait and speech. Existing AR-based methods rely on intermediate facial representations, which limit their expressiveness and realism. Meanwhile, diffusion-based methods generate clip-by-clip, lacking fine-grained control and causing inherent latency due to overall denoising across the window. To address these limitations, we propose EARTalking, a novel end-to-end, GPT-style autoregressive model for interactive audio-driven talking head generation. Our method introduces a novel frame-by-frame, in-context, audio-driven streaming generation paradigm. For inherently supporting variable-length video generation with identity consistency, we propose the Sink Frame Window Attention (SFA) mechanism. Furthermore, to avoid the complex, separate networks that prior works required for diverse control signals, we propose a streaming Frame Condition In-Context (FCIC) scheme. This scheme efficiently injects diverse control signals in a streaming, in-context manner, enabling interactive control at every frame and at arbitrary moments. Experiments demonstrate that EARTalking outperforms existing autoregressive methods and achieves performance comparable to diffusion-based methods. Our work demonstrates the feasibility of in-context streaming autoregressive control, unlocking a scalable direction for flexible, efficient generation. The code will be released for reproducibility.

研究动机与目标

证明需要超越中间表示的端到端自回归说话头生成的必要性。
开发一个逐帧流式模型，在维持身份保真度的同时支持可变长度推断。
引入逐帧上下文控制与稳定的参考图像锚定机制以实现对齐与可控性。
证明所提方法在关键指标上优于自回归基线，并在扩散方法方面具备可比性。

提出的方法

提出 EARTalking，一种用于逐帧说话头生成的 GPT 风格端到端自回归框架。
引入 Sink Frame Window Attention（SFA）及 adaLN 池锚，将生成帧锚定到参考图像并支持可变长度推断。
使用带有 3D VAE 基帧编码器和掩码自回归解码器的逐帧因果自回归（FCA）进行逐帧生成。
采用 Frame Condition In-Context（FCIC）控制，通过上下文学习在每帧注入多模态条件（如音频、动作）。
使用双向音视频注意力和 kv-cache 机制实现参考帧一致性下的流式生成。
在固定长度序列上训练，但通过 SFA 框架和循环位置嵌入实现可变长度推断。

实验结果

研究问题

RQ1全端端到端自回归模型是否能够在不依赖中间表示的情况下达到较高的唇音同步质量和自然的面部动态？
RQ2逐帧上下文控制是否能够实现对音频驱动的说话头生成的细粒度逐帧操控？
RQ3Sink Frame Window Attention 能否稳定自回归生成并在维持与参考图像的身份一致性同时支持可变长度输出？
RQ4FCIC 风格控制如何与音视频信号交互以提升说话头生成的可控性和扩展性？
RQ5与扩散方法和传统自回归方法相比，EARTalking 在标准 THG 指标上表现如何？

主要发现

Dataset	Method	Params	Avg-R (↓)	FID (↓)	FVD (↓)	Sync-C (↑)	Sync-D (↓)	E-FID (↓)
HDTF	AniPortrait	2B	3.50	17.629	443.902	3.368	10.712	2.210
HDTF	EchoMimic	2B	2.66	18.733	629.370	5.610	8.953	0.803
HDTF	EchoMimicV3	1.3B	3.83	21.054	380.812	2.824	11.794	1.987
HDTF	AniTalker	0.1B	2.83	34.644	476.710	5.639	8.588	1.551
HDTF	Ditto	0.1B	3.00	16.253	384.232	4.036	10.250	2.861
HDTF	Ours	0.6B	1.66	18.981	363.909	5.707	8.903	1.326
MEAD	AniPortrait	2B	4.16	63.460	519.822	1.324	12.650	1.886
MEAD	EchoMimic	2B	3.00	51.546	775.951	5.276	9.565	1.562
MEAD	EchoMimicV3	1.3B	3.50	46.797	347.066	2.397	12.455	2.425
MEAD	AniTalker	0.1B	2.66	95.210	627.765	6.145	8.610	1.538
MEAD	Ditto	0.1B	2.66	28.503	329.314	4.412	9.767	2.004
MEAD	Ours	0.6B	1.50	55.682	316.275	5.866	8.459	0.872

优于现有自回归方法，在标准 THG 指标上达到与扩散方法相当的性能。
在保持身份一致性的同时展现出强唇音同步（Sync-C）和表达忠实度（E-FID），并具备较低的 FVD。
SFA 通过 adaLN 池锚将帧锚定到参考图像，减少自回归误差累积并实现可变长度推断。
FCIC 实现逐帧、多模态控制，而无需额外的专用网络，从而提升灵活性和扩展性。
双向音视频注意力与音频/视觉 kv-cache 提升同步性与时间稳定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。