Skip to main content
QUICK REVIEW

[논문 리뷰] T2M Mamba: Motion Periodicity-Saliency Coupling Approach for Stable Text-Driven Motion Generation

Xingzu Zhan, Chen Xie|arXiv (Cornell University)|2026. 02. 01.
Human Motion and Animation인용 수 0
한 줄 요약

T2M Mamba는 모션 키프레임 주목도와 모션 주기성을 결합하고 롱-텍스트-투-모션 생성의 안정성을 높이고 패러프레이즈에 대한 강인성을 개선합니다. 이는 HumanML3D와 KIT-ML에서 최첨단 성능을 달성하며 ultra-low FID와 강력한 정합 지표를 보입니다.

ABSTRACT

Text-to-motion generation, which converts motion language descriptions into coherent 3D human motion sequences, has attracted increasing attention in fields, such as avatar animation and humanoid robotic interaction. Though existing models have achieved significant fidelity, they still suffer from two core limitations: (i) They treat motion periodicity and keyframe saliency as independent factors, overlooking their coupling and causing generation drift in long sequences. (ii) They are fragile to semantically equivalent paraphrases, where minor synonym substitutions distort textual embeddings, propagating through the decoder and producing unstable or erroneous motions. In this work, we propose T2M Mamba to address these limitations by (i) proposing Periodicity-Saliency Aware Mamba, which utilizes novel algorithms for keyframe weight estimation via enhanced Density Peaks Clustering and motion periodicity estimation via FFT-accelerated autocorrelation to capture coupled dynamics with minimal computational overhead, and (ii) constructing a Periodic Differential Cross-modal Alignment Module (PDCAM) to enhance robust alignment of textual and motion embeddings. Extensive experiments on HumanML3D and KIT-ML datasets have been conducted, confirming the effectiveness of our approach, achieving an FID of 0.068 and consistent gains on all other metrics.

연구 동기 및 목표

  • 장기적인 텍스트-투-모션 생성에서의 불안정성과 드리프트를 동기화하고 해결한다.
  • 역사적 망각을 방지하기 위해 키프레임 주목도와 모션 주기성 간의 결합을 모델링한다.
  • 교차모달 정렬 강화로 패러프레이즈로 인한 임베딩 드리프트에 대한 강인성을 향상시킨다.
  • 키프레임 탐지와 주기성 추정을 위한 최소 오버헤드의 효율적인 알고리즘을 제시한다.

제안 방법

  • 모션 구간 내에서 향상된 Density Peaks Clustering을 사용하여 키프레임 주목도를 탐지하고 적응적 키프레이_WEIGHT치를 할당한다.
  • 스펙트럴 엔트로피와 두드러짐 기준을 포함한 FFT 가속 자기상관을 통해 구간별 모션 주기성을 추정한다.
  • 중요 프레임과 리드믹성을 강화하기 위해 키프레임 가중치와 페이즈 인코딩을 Periodicity-Saliency Aware Mamba에 통합한다.
  • 시간 스케일 불일치 하에서도 텍스트와 모션 임베딩을 견고하게 정렬하기 위한 Periodic Differential Cross-modal Alignment Module (PDCAM)을 개발한다.
  • 위상 회전된 질의 슬라이스와 차등 주의를 사용하여 패러프레이즈 교란을 완화하면서 판별 가능한 교차모달 신호를 강조한다.
Figure 1: The overview of the proposed T2M Mamba. (a) T2M Mamba. Our T2M Mamba consisting of N basic blocks aims to predict clean motion sequence (b) Inference Process. Starting from Gaussian noise, the model iteratively denoises to generate a clean motion sequence $M^{0}$ semantically aligned with
Figure 1: The overview of the proposed T2M Mamba. (a) T2M Mamba. Our T2M Mamba consisting of N basic blocks aims to predict clean motion sequence (b) Inference Process. Starting from Gaussian noise, the model iteratively denoises to generate a clean motion sequence $M^{0}$ semantically aligned with

실험 결과

연구 질문

  • RQ1키프레임 주목도와 모션 주기성을 어떻게 결합하여 긴 시퀀스에서의 역사적 망각을 줄일 수 있는가?
  • RQ2위상 인코딩된 주기 정보를 통해 텍스트-투-모션 생성의 안정성과 리듬을 개선할 수 있는가?
  • RQ3PDCAM 교차모달 정렬이 의미론적 패러프레이즈 변화에 견고하게 대처하는가?
  • RQ4기존 텍스트-투-모션 모델에 주기성-주목도 결합을 추가했을 때의 성능 향상과 계산 비용은 무엇인가?

주요 결과

  • T2M Mamba는 HumanML3D/KIT-ML 벤치마크에서 초저 FID 0.068를 달성했으며 지표 전반에서 일관된 향상을 보인다.
  • 키프레임 가중치(M)나 페이즈 인코딩(phi)을 제거하면 FID와 R-Top3가 저하되어 이들의 상보적 역할을 확인시킨다.
  • PDCAM은 표준 차등 주의(attention) 대비 교차모달 정렬을 크게 개선하고 R-Top3를 높이며 MM Dist를 줄인다.
  • M과 phi를 함께 사용할 때 가장 높은 안정성과 모션 충실도가 확보되며, 시험된 깊이 중 6개의 Mamba 레이어가 최적이다.
  • 패러프레이즈 강건성 실험은 경미한 텍스트 변형에서도 모델이 안정적인 모션을 유지함을 보여 주어 이전 패러프레이즈 민감도를 해결한다.
Figure 2: Illustration of our Periodicity-Saliency Aware Mamba. $\odot$ denotes dot product.
Figure 2: Illustration of our Periodicity-Saliency Aware Mamba. $\odot$ denotes dot product.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.