[논문 리뷰] SmoothSync: Dual-Stream Diffusion Transformers for Jitter-Robust Beat-Synchronized Gesture Generation from Quantized Audio
SmoothSync는 양자화된 오디오와 모션 토큰을 융합하는 이중-스트림 디퓨전 트랜스포머를 도입하여 다양한, 비트-동기화된 전신 제스처를 생성하고 진동 및 발 미끄러짐을 줄이며 BEAT2와 SHOW 데이터셋에서 최첨단 리얼리즘과 다양성을 달성한다.
Co-speech gesture generation is a critical area of research aimed at synthesizing speech-synchronized human-like gestures. Existing methods often suffer from issues such as rhythmic inconsistency, motion jitter, foot sliding and limited multi-sampling diversity. In this paper, we present SmoothSync, a novel framework that leverages quantized audio tokens in a novel dual-stream Diffusion Transformer (DiT) architecture to synthesis holistic gestures and enhance sampling variation. Specifically, we (1) fuse audio-motion features via complementary transformer streams to achieve superior synchronization, (2) introduce a jitter-suppression loss to improve temporal smoothness, (3) implement probabilistic audio quantization to generate distinct gesture sequences from identical inputs. To reliably evaluate beat synchronization under jitter, we introduce Smooth-BC, a robust variant of the beat consistency metric less sensitive to motion noise. Comprehensive experiments on the BEAT2 and SHOW datasets demonstrate SmoothSync's superiority, outperforming state-of-the-art methods by -30.6% FGD, 10.3% Smooth-BC, and 8.4% Diversity on BEAT2, while reducing jitter and foot sliding by -62.9% and -17.1% respectively. The code will be released to facilitate future research.
연구 동기 및 목표
- 공동 발화 제스처 생성에서 모션 진동, 발 미끄럼 및 다양성 한계 해결.
- 높은 리얼리즘과 샘플링 다양성을 갖춘 전신의 비트-동기화 제스처 구현.
- 모달리티별 처리와 교차 모달 융합을 갖춘 이중 스트림 확산 아키텍처를 제안한다.
- 시계열 매끄러움을 개선하기 위한 진동 억제 손실(jitter-suppression loss)과 양자화된 오디오 특징을 도입한다.
- 강건한 평가 지표(Smooth-BC)를 제공하고 BEAT2와 SHOW에서 최첨단 결과를 입증한다.
제안 방법
- 양자화된 멜 스펙트로그램 오디오 특징이 SMPLX 기반 모션 표현과 이중-스트림 확산 트랜스포머를 통해 융합된다.
- 다양하지만 동기화된 제스처를 만들기 위해 3단계 시간 양자화와 오디오 특징 보강이 사용된다.
- 이중-스트림 트랜스포머 블록이 모달리티별 정규화를 통해 오디오와 모션을 각각 처리하고, 그 다음 결합된 교차 모달 어텐션을 수행한다.
- 진동 억제 손실이 고주파 모션 아티팩트를 제재하여 시간적 매끄러움을 개선한다.
- Smooth-BC는 모션 진동에 대한 민감도를 줄이는 강건한 비트-일관성 지표로 도입된다.
- 장시간 모션 생성을 세그먼트 기반 전략과 점진적 블렌딩으로 시간적 일관성을 유지한다.
실험 결과
연구 질문
- RQ1이중-스트림 확산 변환기가 비트 타이밍과 전신 제스처 간 동기화를 개선하면서 모션 아티팩트를 줄일 수 있는가?
- RQ2양자화된 오디오 표현이 동기화를 희생하지 않으면서 다양한 제스처 생성을 가능하게 하는가?
- RQ3진동 억제 손실과 Smooth-BC가 모션 품질 및 리듬 정렬에 미치는 영향은 무엇인가?
- RQ4SHOW와 같은 실제 환경 데이터셋에 대해 SmoothSync의 일반화 능력은 BEAT2와 비교하여 어떤가?
주요 결과
- SmoothSync는 BEAT2와 SHOW에서 최첨단 Fréchet Gesture Distance (FGD)를 달성했으며, 비교된 방법들 중 가장 높은 모션 리얼리즘을 보인다.
- SmoothSync는 가장 높은 Intra-Diversity와 비제로 Inter-Diversity를 제공하여 샘플 내 다양성과 샘플 간 변화를 강하게 나타낸다.
- SmoothSync는 베이스라인에 비해 진동 및 발 미끄럼 아티팩트를 크게 감소시키며(예: BEAT2에서 최대 62.9% 진동 감소).
- SmoothSync는 강건한 비트 일관성을 유지하며 Smooth-BC가 기준 BC를 현저한 차이로 능가한다(예: BEAT2에서 +10.3%).
- 이중-스트림 아키텍처와 진동 손실 및 양자화된 오디오 특징이 결합되어 전역 이동을 제어하고 모션 드리프트를 감소시키며 안정적인 장시간 시퀀스 생성을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.