QUICK REVIEW

[논문 리뷰] SmoothSync: Dual-Stream Diffusion Transformers for Jitter-Robust Beat-Synchronized Gesture Generation from Quantized Audio

Yujiao Jiang, Qingmin Liao|arXiv (Cornell University)|2026. 01. 04.

Music Technology and Sound Studies인용 수 0

한 줄 요약

SmoothSync는 양자화된 오디오와 모션 토큰을 융합하는 이중-스트림 디퓨전 트랜스포머를 도입하여 다양한, 비트-동기화된 전신 제스처를 생성하고 진동 및 발 미끄러짐을 줄이며 BEAT2와 SHOW 데이터셋에서 최첨단 리얼리즘과 다양성을 달성한다.

ABSTRACT

Co-speech gesture generation is a critical area of research aimed at synthesizing speech-synchronized human-like gestures. Existing methods often suffer from issues such as rhythmic inconsistency, motion jitter, foot sliding and limited multi-sampling diversity. In this paper, we present SmoothSync, a novel framework that leverages quantized audio tokens in a novel dual-stream Diffusion Transformer (DiT) architecture to synthesis holistic gestures and enhance sampling variation. Specifically, we (1) fuse audio-motion features via complementary transformer streams to achieve superior synchronization, (2) introduce a jitter-suppression loss to improve temporal smoothness, (3) implement probabilistic audio quantization to generate distinct gesture sequences from identical inputs. To reliably evaluate beat synchronization under jitter, we introduce Smooth-BC, a robust variant of the beat consistency metric less sensitive to motion noise. Comprehensive experiments on the BEAT2 and SHOW datasets demonstrate SmoothSync's superiority, outperforming state-of-the-art methods by -30.6% FGD, 10.3% Smooth-BC, and 8.4% Diversity on BEAT2, while reducing jitter and foot sliding by -62.9% and -17.1% respectively. The code will be released to facilitate future research.

연구 동기 및 목표

공동 발화 제스처 생성에서 모션 진동, 발 미끄럼 및 다양성 한계 해결.
높은 리얼리즘과 샘플링 다양성을 갖춘 전신의 비트-동기화 제스처 구현.
모달리티별 처리와 교차 모달 융합을 갖춘 이중 스트림 확산 아키텍처를 제안한다.
시계열 매끄러움을 개선하기 위한 진동 억제 손실(jitter-suppression loss)과 양자화된 오디오 특징을 도입한다.
강건한 평가 지표(Smooth-BC)를 제공하고 BEAT2와 SHOW에서 최첨단 결과를 입증한다.

제안 방법

양자화된 멜 스펙트로그램 오디오 특징이 SMPLX 기반 모션 표현과 이중-스트림 확산 트랜스포머를 통해 융합된다.
다양하지만 동기화된 제스처를 만들기 위해 3단계 시간 양자화와 오디오 특징 보강이 사용된다.
이중-스트림 트랜스포머 블록이 모달리티별 정규화를 통해 오디오와 모션을 각각 처리하고, 그 다음 결합된 교차 모달 어텐션을 수행한다.
진동 억제 손실이 고주파 모션 아티팩트를 제재하여 시간적 매끄러움을 개선한다.
Smooth-BC는 모션 진동에 대한 민감도를 줄이는 강건한 비트-일관성 지표로 도입된다.
장시간 모션 생성을 세그먼트 기반 전략과 점진적 블렌딩으로 시간적 일관성을 유지한다.

실험 결과

연구 질문

RQ1이중-스트림 확산 변환기가 비트 타이밍과 전신 제스처 간 동기화를 개선하면서 모션 아티팩트를 줄일 수 있는가?
RQ2양자화된 오디오 표현이 동기화를 희생하지 않으면서 다양한 제스처 생성을 가능하게 하는가?
RQ3진동 억제 손실과 Smooth-BC가 모션 품질 및 리듬 정렬에 미치는 영향은 무엇인가?
RQ4SHOW와 같은 실제 환경 데이터셋에 대해 SmoothSync의 일반화 능력은 BEAT2와 비교하여 어떤가?

주요 결과

SmoothSync는 BEAT2와 SHOW에서 최첨단 Fréchet Gesture Distance (FGD)를 달성했으며, 비교된 방법들 중 가장 높은 모션 리얼리즘을 보인다.
SmoothSync는 가장 높은 Intra-Diversity와 비제로 Inter-Diversity를 제공하여 샘플 내 다양성과 샘플 간 변화를 강하게 나타낸다.
SmoothSync는 베이스라인에 비해 진동 및 발 미끄럼 아티팩트를 크게 감소시키며(예: BEAT2에서 최대 62.9% 진동 감소).
SmoothSync는 강건한 비트 일관성을 유지하며 Smooth-BC가 기준 BC를 현저한 차이로 능가한다(예: BEAT2에서 +10.3%).
이중-스트림 아키텍처와 진동 손실 및 양자화된 오디오 특징이 결합되어 전역 이동을 제어하고 모션 드리프트를 감소시키며 안정적인 장시간 시퀀스 생성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.