[论文解读] SmoothSync: Dual-Stream Diffusion Transformers for Jitter-Robust Beat-Synchronized Gesture Generation from Quantized Audio
SmoothSync 引入一个将量化音频与运动令牌融合的双流扩散变换器,能够生成多样、节拍同步、全身手势,抖动和脚滑现象显著降低,在 BEAT2 和 SHOW 数据集上达到最先进的真实感与多样性。
Co-speech gesture generation is a critical area of research aimed at synthesizing speech-synchronized human-like gestures. Existing methods often suffer from issues such as rhythmic inconsistency, motion jitter, foot sliding and limited multi-sampling diversity. In this paper, we present SmoothSync, a novel framework that leverages quantized audio tokens in a novel dual-stream Diffusion Transformer (DiT) architecture to synthesis holistic gestures and enhance sampling variation. Specifically, we (1) fuse audio-motion features via complementary transformer streams to achieve superior synchronization, (2) introduce a jitter-suppression loss to improve temporal smoothness, (3) implement probabilistic audio quantization to generate distinct gesture sequences from identical inputs. To reliably evaluate beat synchronization under jitter, we introduce Smooth-BC, a robust variant of the beat consistency metric less sensitive to motion noise. Comprehensive experiments on the BEAT2 and SHOW datasets demonstrate SmoothSync's superiority, outperforming state-of-the-art methods by -30.6% FGD, 10.3% Smooth-BC, and 8.4% Diversity on BEAT2, while reducing jitter and foot sliding by -62.9% and -17.1% respectively. The code will be released to facilitate future research.
研究动机与目标
- 解决同话语手势生成中的 motion jitter(运动抖动)、foot-sliding(脚滑)以及多样性不足问题。
- 实现高真实感与采样多样性的全身、节拍同步手势。
- 提出面向模态特定处理与跨模态融合的双流扩散架构。
- 引入抖动抑制损失和量化音频特征以改善时间平滑性与多样性。
- 提供鲁棒的评估指标(Smooth-BC),并在 BEAT2 与 SHOW 上展示最先进的结果。
提出的方法
- 量化的梅尔频谱音频特征通过双流扩散变换器与基于 SMPLX 的运动表示进行融合。
- 采用三阶段时间量化与音频特征增强以产生多样且同步的手势。
- 双流变换器块分别处理音频和运动,使用模态特定的归一化,然后进行联合跨模态注意力。
- 抖动抑制损失对高频运动伪影进行惩罚,以提高时间平滑性。
- 引入 Smooth-BC 作为鲁棒的节拍一致性指标,能降低对运动抖动的敏感性。
- 长序列生成采用基于片段的策略和渐进混合以保持时间一致性。
实验结果
研究问题
- RQ1双流扩散变换器是否能在减少运动伪影的同时改善节拍时间与全身手势的同步性?
- RQ2量化音频表示是否能够在不牺牲同步性的前提下实现多样化的手势生成?
- RQ3抖动抑制损失与 Smooth-BC 对运动质量和节律对齐有何影响?
- RQ4与 BEAT2 相比,SmoothSync 在 SHOW 等真实世界数据集上的泛化能力如何?
主要发现
- SmoothSync 在 BEAT2 与 SHOW 上实现了最先进的 Fréchet Gesture Distance (FGD),在所比较的方法中具有最佳的运动真实感。
- SmoothSync 提供了最高的 Intra-Diversity 与非零 Inter-Diversity,表明样本内多样性和跨样本变异性较强。
- 与基线相比,SmoothSync 显著降低了抖动与脚滑等伪影(例如在 BEAT2 上抖动降低多达 62.9%)。
- SmoothSync 维持鲁棒的节拍一致性,Smooth-BC 的表现显著优于基线 BC(例如在 BEAT2 上提升 +10.3%)。
- 该双流架构结合抖动损失与量化音频特征,能够实现稳定的长序列生成并对全局平移进行控制、减少运动漂移。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。