[論文レビュー] SmoothSync: Dual-Stream Diffusion Transformers for Jitter-Robust Beat-Synchronized Gesture Generation from Quantized Audio
SmoothSync はデュアルストリーム拡散トランスフォーマーを導入し、量子化オーディオとモーショントークンを融合して、ジッターを低減しフットスライディングを抑制した、多様でビート同期された全身ジェスチャーを生成。BEAT2 と SHOW データセットで最先端のリアリズムと多様性を達成。
Co-speech gesture generation is a critical area of research aimed at synthesizing speech-synchronized human-like gestures. Existing methods often suffer from issues such as rhythmic inconsistency, motion jitter, foot sliding and limited multi-sampling diversity. In this paper, we present SmoothSync, a novel framework that leverages quantized audio tokens in a novel dual-stream Diffusion Transformer (DiT) architecture to synthesis holistic gestures and enhance sampling variation. Specifically, we (1) fuse audio-motion features via complementary transformer streams to achieve superior synchronization, (2) introduce a jitter-suppression loss to improve temporal smoothness, (3) implement probabilistic audio quantization to generate distinct gesture sequences from identical inputs. To reliably evaluate beat synchronization under jitter, we introduce Smooth-BC, a robust variant of the beat consistency metric less sensitive to motion noise. Comprehensive experiments on the BEAT2 and SHOW datasets demonstrate SmoothSync's superiority, outperforming state-of-the-art methods by -30.6% FGD, 10.3% Smooth-BC, and 8.4% Diversity on BEAT2, while reducing jitter and foot sliding by -62.9% and -17.1% respectively. The code will be released to facilitate future research.
研究の動機と目的
- コモーションジッター、フットスライド、コスピーチュアジェスチャー生成の多様性の制限を adress
- 高リアリズムとサンプリング多様性を備えた全身・ビート同期ジェスチャーの実現
- モダリティ別処理と横断モーダル統合を含むデュアルストリーム拡散アーキテクチャの提案
- 時間的滑らかさと多様性を向上させるジッター抑制損失と量子化オーディオ特徴の導入
- 頑健な評価指標(Smooth-BC)を提供し、BEAT2 と SHOW で最先端の結果を示す
提案手法
- Quantized mel-spectrogram オーディオ特徴を SMPLX ベースのモーション表現とデュアルストリーム拡散トランスフォーマーで融合する
- 3 段階の時間量子化とオーディオ特徴の増強を用いて、多様でありながら同期されたジェスチャーを作成する
- 音声とモーションを別々に処理するデュアルストリームトランスフォーマーブロック(モダリティ固有正規化を含む)と、その後の結合横断モーダルアテンション
- 高周波モーションアーティファクトを抑制して時間的滑らかさを向上させるジッター抑制損失
- ビート一貫性のロバスト性を高め、モーションジッターの感度を低減する Smooth-BC を導入
- 長期モーション生成はセグメントベース戦略と漸進的ブレンディングを用いて時間的一貫性を維持する
実験結果
リサーチクエスチョン
- RQ1デュアルストリーム拡散トランスフォーマーはビートタイミングと全身ジェスチャーの同期を改善し、モーションアーティファクトを低減できるか?
- RQ2量子化されたオーディオ表現は同期性を損なうことなく多様なジェスチャー生成を可能にするか?
- RQ3ジッター抑制損失と Smooth-BC がモーション品質とリズム整合性に与える影響はどの程度か?
- RQ4SmoothSync は BEAT2 に比べ SHOW のような野外データセットへどの程度一般化できるか?
主な発見
- SmoothSync は BEAT2 と SHOW の双方で最先端の Fréchet Gesture Distance (FGD) を達成し、比較対象手法の中で最も高いモーションリアリズムを実現
- SmoothSync は最高の intra-diversity と非ゼロの inter-diversity を提供し、サンプル内の多様性とサンプル間のバリエーションが強いことを示す
- SmoothSync はベースラインと比較してジッターと足の滑りを大幅に低減(例: BEAT2 で最大 62.9% のジッター削減)
- SmoothSync は頑健なビート一貫性を維持し、Smooth-BC はベースライン BC より顕著な改善を示す(例: BEAT2 で +10.3%)
- デュアルストリームアーキテクチャとジッター損失および量子化オーディオ特徴の組み合わせにより、長期シーケンス生成が安定し、グローバル平行移動とモーションドリフトを抑制できる
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。