[论文解读] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation
DyaDiT 是一个扩散 Transformer,能够从两人音频中生成具有社会意识的双人姿势,融合社会情境、ORCA 音频融合并可选的伙伴运动先验;在真实感、多样性和用户偏好方面优于基线。
Generating realistic conversational gestures are essential for achieving natural, socially engaging interactions with digital humans. However, existing methods typically map a single audio stream to a single speaker's motion, without considering social context or modeling the mutual dynamics between two people engaging in conversation. We present DyaDiT, a multi-modal diffusion transformer that generates contextually appropriate human motion from dyadic audio signals. Trained on Seamless Interaction Dataset, DyaDiT takes dyadic audio with optional social-context tokens to produce context-appropriate motion. It fuses information from both speakers to capture interaction dynamics, uses a motion dictionary to encode motion priors, and can optionally utilize the conversational partner's gestures to produce more responsive motion. We evaluate DyaDiT on standard motion generation metrics and conduct quantitative user studies, demonstrating that it not only surpasses existing methods on objective metrics but is also strongly preferred by users, highlighting its robustness and socially favorable motion generation. Code and models will be released upon acceptance.
研究动机与目标
- 促使在双人对话中的现实且具有社会情境的姿势生成,超越单人说话模型的能力。
- 对一个扩散-变换器框架进行建模与验证,使其融合双人音频、社会线索与伙伴运动。
- 引入 ORCA,以实现双音频流的正交分离并支持响应式姿势。
- 利用运动字典与运动分词器,使姿势风格具有可控性与多样性。
提出的方法
- 使用以多模态输入为条件的扩散 Transformer 主干(ORCA(audio self, audio other)、伙伴运动、关系类型、性格分数)。
- 引入 ORCA,通过双向交叉注意力与可学习门控实现双人音频流的正交化融合。
- 引入可学习的运动字典以注入风格先验,并实现 CFG 指导的姿势风格控制。
- 使用残差 VQ-VAE 将运动离散化,以在运动空间中获得潜在 Token,便于高效扩散。
- 在 curated Seamless Interaction 子集上训练,包含 3,000 段片段(约 182 小时)和 6D 上半身运动表示。
- 可选地对关系和性格进行条件化,以调控姿势。

实验结果
研究问题
- RQ1扩散-变换器框架是否可以在社会属性和双人音频条件下生成上下文相关的双人姿势?
- RQ2ORCA 是否能够提高两位说话者音频的分离度,并带来更真实的姿势?
- RQ3运动先验与社会条件化对姿势多样性与真实感有何影响?
- RQ4与现有双人姿势基线相比,DyaDiT 在客观指标和人类偏好方面有何表现?
主要发现
| FD (Static) | FD (Kinetic) | Diversity (Static) | Diversity (Kinetic) | |
|---|---|---|---|---|
| GT | - | - | 28.42 | 1.97 |
| Random | 14.94 | 3.74 | 33.85 | 2.05 |
| ConvoFusion [29] | 9.22 | 1.74 | 18.33 | 1.10 |
| Audio2PhotoReal [32] | 8.77 | 1.84 | 19.35 | 1.05 |
| DyaDiT (w/o ORCA) | 7.32 | 1.79 | 23.57 | 1.24 |
| DyaDiT (w/o MD) | 6.88 | 1.75 | 18.34 | 1.29 |
| DyaDiT (Uncond) | 7.40 | 1.63 | 21.65 | 1.16 |
| DyaDiT (Random) | 8.24 | 1.53 | 21.94 | 1.43 |
| DyaDiT | 6.40 | 1.37 | 27.46 | 1.38 |
- DyaDiT 在静态和动态度量下的 Fréchet 距离(FD)更低并保持高多样性,与基线相比表现更好。
- 消融实验表明 ORCA 与运动字典对真实感与风格变化都有贡献,对社会情境的条件化提升了姿势质量。
- 在 FD 与多样性指标上,定量结果优于 ConvoFusion 与 Audio2PhotoReal。
- 用户研究显示对 DyaDiT 的姿势有显著偏好,优于 ConvoFusion,且在某些方面甚至优于真实参考的感知,突显社会连贯性与自然性。
- 扩散式、社会情境条件化的设定能够产生更自然且协同的双人姿势。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。