QUICK REVIEW

[論文レビュー] EARTalking: End-to-end GPT-style Autoregressive Talking Head Synthesis with Frame-wise Control

Yuzhe Weng, Haotian Wang|arXiv (Cornell University)|Mar 19, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

EARTalking は、フレームごとの音声ドリブン・話し顔生成のためのエンドツーエンドのGPT風自己回帰フレームワークを導入し、フレーム単位のコンテキスト内制御と可変長推論および恒常的な同一性出力のための Sink Frame Window Attention メカニズムを特徴とします。

ABSTRACT

Audio-driven talking head generation aims to create vivid and realistic videos from a static portrait and speech. Existing AR-based methods rely on intermediate facial representations, which limit their expressiveness and realism. Meanwhile, diffusion-based methods generate clip-by-clip, lacking fine-grained control and causing inherent latency due to overall denoising across the window. To address these limitations, we propose EARTalking, a novel end-to-end, GPT-style autoregressive model for interactive audio-driven talking head generation. Our method introduces a novel frame-by-frame, in-context, audio-driven streaming generation paradigm. For inherently supporting variable-length video generation with identity consistency, we propose the Sink Frame Window Attention (SFA) mechanism. Furthermore, to avoid the complex, separate networks that prior works required for diverse control signals, we propose a streaming Frame Condition In-Context (FCIC) scheme. This scheme efficiently injects diverse control signals in a streaming, in-context manner, enabling interactive control at every frame and at arbitrary moments. Experiments demonstrate that EARTalking outperforms existing autoregressive methods and achieves performance comparable to diffusion-based methods. Our work demonstrates the feasibility of in-context streaming autoregressive control, unlocking a scalable direction for flexible, efficient generation. The code will be released for reproducibility.

研究の動機と目的

エンドツーエンドの自己回帰的話し顔生成が中間表現に依存する従来手法を超える必要性を動機づける。
フレームごとのストリーミングモデルを開発し、可変長推論をサポートしつつアイデンティティ忠実性を維持する。
フレーム単位の文脈内制御および参照画像への安定したアテンションアンカーを導入する。
提案手法が自己回帰ベースラインを上回り、拡散ベース手法と主要指標で同等であることを示す.

提案手法

EARTalking を提案する。これはフレームごとの話し顔生成のための GPT風のエンドツーエンド自己回帰フレームワークである。
Sink Frame Window Attention (SFA) を adaLN ソ sink とともに導入し、生成フレームを参照画像へアンカー付けし可変長推論をサポートする。
Frame-wise Causal Autoregression (FCA) を3D VAE ベースのフレームエンコーダとマスクド自己回帰デコーダで用い、フレームごとの生成を行う。
Frame Condition In-Context (FCIC) 制御を採用し、音声・動作などの多モーダル条件をフレームごとにインコンテキスト学習で注入する。
双方向の音声-映像アテンションと kv-cache 機構を用いて、参照フレームの一貫性を保ちながらストリーミング生成を可能にする。
固定長シーケンスで訓練するが、SFA フレームワークと周期的位置埋め込みを通じて可変長推論を有効にする。

実験結果

リサーチクエスチョン

RQ1完全なエンドツーエンド自己回帰モデルが、中間表現に頼らず高いリップシンク品質と自然な表情ダイナミクスを達成できるか。
RQ2フレームごとの文脈内制御が、音声主導の話し顔生成の細かなフレーム単位の操作を可能にするか。
RQ3Sink Frame Window Attention が自己回帰生成を安定化させ、参照画像とのアイデンティティ一貫性を保ちながら可変長出力をサポートできるか。
RQ4FCIC スタイルの制御が音声-映像信号とどのように相互作用し、話し顔生成の制御性と拡張性を向上させるか。
RQ5EARTalking は標準的 THG 指標で拡散ベース手法および従来の自己回帰手法とどう比較されるか。

主な発見

Dataset	Method	Params	Avg-R (↓)	FID (↓)	FVD (↓)	Sync-C (↑)	Sync-D (↓)	E-FID (↓)
HDTF	AniPortrait	2B	3.50	17.629	443.902	3.368	10.712	2.210
HDTF	EchoMimic	2B	2.66	18.733	629.370	5.610	8.953	0.803
HDTF	EchoMimicV3	1.3B	3.83	21.054	380.812	2.824	11.794	1.987
HDTF	AniTalker	0.1B	2.83	34.644	476.710	5.639	8.588	1.551
HDTF	Ditto	0.1B	3.00	16.253	384.232	4.036	10.250	2.861
HDTF	Ours	0.6B	1.66	18.981	363.909	5.707	8.903	1.326
MEAD	AniPortrait	2B	4.16	63.460	519.822	1.324	12.650	1.886
MEAD	EchoMimic	2B	3.00	51.546	775.951	5.276	9.565	1.562
MEAD	EchoMimicV3	1.3B	3.50	46.797	347.066	2.397	12.455	2.425
MEAD	AniTalker	0.1B	2.66	95.210	627.765	6.145	8.610	1.538
MEAD	Ditto	0.1B	2.66	28.503	329.314	4.412	9.767	2.004
MEAD	Ours	0.6B	1.50	55.682	316.275	5.866	8.459	0.872

既存の自己回帰手法を上回り、標準的 THG 指標で拡散ベース手法と同等の性能を達成する。
リップシンクの強い再現性（Sync-C）と表現忠実度（E-FID）を示しつつ、アイデンティティ一貫性を維持（低い FVD）。
SFA の adaLN sink がフレームを参照画像へアンカー付けし、自己回帰誤差の蓄積を低減し可変長推論を実現。
FCIC により追加の専門ネットワークなしでフレームごとの多モーダル制御が可能となり、柔軟性と拡張性が向上。
双方向の音声-映像アテンションと音声/映像 kv-cache が同期と時間的安定性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。