QUICK REVIEW

[논문 리뷰] T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations

Jianrong Zhang, Yangsong Zhang|arXiv (Cornell University)|2023. 01. 15.

Human Pose and Action Recognition인용 수 20

한 줄 요약

두 단계 프레임워크(Motion VQ-VAE + GPT)를 제안하여 이산 코드를 사용해 텍스트로부터 인간의 모션을 생성하고 표준 데이터셋에서 확산 모델과 경쟁하는 성능을 달성한다.

ABSTRACT

In this work, we investigate a simple and must-known conditional generative framework based on Vector Quantised-Variational AutoEncoder (VQ-VAE) and Generative Pre-trained Transformer (GPT) for human motion generation from textural descriptions. We show that a simple CNN-based VQ-VAE with commonly used training recipes (EMA and Code Reset) allows us to obtain high-quality discrete representations. For GPT, we incorporate a simple corruption strategy during the training to alleviate training-testing discrepancy. Despite its simplicity, our T2M-GPT shows better performance than competitive approaches, including recent diffusion-based approaches. For example, on HumanML3D, which is currently the largest dataset, we achieve comparable performance on the consistency between text and generated motion (R-Precision), but with FID 0.116 largely outperforming MotionDiffuse of 0.630. Additionally, we conduct analyses on HumanML3D and observe that the dataset size is a limitation of our approach. Our work suggests that VQ-VAE still remains a competitive approach for human motion generation.

연구 동기 및 목표

이산 표현을 이용한 간단하고 효과적인 텍스트-모션 생성을 제안한다.
EMA와 Code Reset을 갖춘 VQ-VAE가 고품질의 모션 코드를 생성할 수 있음을 시연한다.
시퀀스 손상을 이용해 학습된 GPT-유사 모델이 텍스트 설명과 생성된 모션을 정렬할 수 있음을 보인다.
표준 벤치마크(HumanML3D, KIT-ML)에서 확산 기반 방법과 대조 평가한다.
양자화 전략과 데이터셋 규모가 성능에 미치는 영향을 분석한다.

제안 방법

두 단계 프레임워크: (1) Motion VQ-VAE가 모션 시퀀스를 코드 인덱스로 매핑하는 이산 코드를 학습; (2) T2M-GPT가 텍스트 조건 임베딩으로부터 코드 인덱스를 자기회귀적으로 생성한다.
Motion VQ-VAE는 학습 가능한 코드북을 갖춘 CNN 기반 인코더/디코더를 사용한다; 재구성 손실은 L1 스무스 손실과 속도 규제를 포함한다.
양자화 전략으로 EMA와 Code Reset을 사용하여 VQ-VAE 학습 중 코드북 붕괴를 완화한다.
T2M-GPT는 End 토큰을 포함한 코드 인덱스 시퀀스 S에 대해 p(S|c)를 모델링하기 위해 인과적 자기주의를 갖춘 GPT 유사 트랜스포머를 사용한다; CLIP은 조건으로 텍스트 임베딩을 제공한다.
GPT 학습 중 간단한 손상 전략은 학습 데이터를 증강하고 훈련-테스트 간의 차이를 완화한다.

실험 결과

연구 질문

RQ1VQ-VAE를 통한 이산 잠재 표현이 텍스트 설명과 일치하는 모션을 얼마나 잘 재구성하고 생성할 수 있는가?
RQ2텍스트로 조건화된 GPT 기반 자기회귀 모델이 확산 기반 방법과 비교해 경쟁력 있는 텍스트-모션 성능을 보이는가?
RQ3양자화 전략(EMA, Code Reset)이 재구성 및 생성 품질에 미치는 영향은 무엇인가?
RQ4표준 벤치마크에서 학습 데이터 크기가 텍스트-모션 성능에 어떤 영향을 미치는가?
RQ5End(종료) 토큰이 모션 길이 예측을 대체해 모션 지속 시간을 효과적으로 제어할 수 있는가?

주요 결과

EMA나 Code Reset을 사용하는 VQ-VAE가 고품질 재구성 및 생성을 달성하며, 단순한 학습을 능가한다.
시퀀스 손상으로 학습된 GPT 기반 모델은 훈련-테스트 차이를 줄이고 강력한 텍스트-모션 일관성을 보인다.
HumanML3D 및 KIT-ML에서 T2M-GPT는 확산 방법과 유사한 R-Precision을 달성하고 FID는 훨씬 더 우수하다(예: HumanML3D에서 0.116 대 0.630).
더 큰 데이터셋이 성능을 더욱 향상시키며 더 많은 데이터로 잠재적 이익이 있음을 시사한다.
End 토큰을 통한 암시적 길이 모델링은 별도의 길이 예측기 없이도 모션 지속 시간을 효과적으로 제어한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.