Skip to main content
QUICK REVIEW

[論文レビュー] T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations

Jianrong Zhang, Yangsong Zhang|arXiv (Cornell University)|Jan 15, 2023
Human Pose and Action Recognition被引用数 20
ひとこと要約

二段階フレームワークを提案(Motion VQ-VAE + GPT)で、離散コードを用いてテキストから人間の動作を生成し、標準データセット上で拡散モデルと競合する結果を達成。

ABSTRACT

In this work, we investigate a simple and must-known conditional generative framework based on Vector Quantised-Variational AutoEncoder (VQ-VAE) and Generative Pre-trained Transformer (GPT) for human motion generation from textural descriptions. We show that a simple CNN-based VQ-VAE with commonly used training recipes (EMA and Code Reset) allows us to obtain high-quality discrete representations. For GPT, we incorporate a simple corruption strategy during the training to alleviate training-testing discrepancy. Despite its simplicity, our T2M-GPT shows better performance than competitive approaches, including recent diffusion-based approaches. For example, on HumanML3D, which is currently the largest dataset, we achieve comparable performance on the consistency between text and generated motion (R-Precision), but with FID 0.116 largely outperforming MotionDiffuse of 0.630. Additionally, we conduct analyses on HumanML3D and observe that the dataset size is a limitation of our approach. Our work suggests that VQ-VAE still remains a competitive approach for human motion generation.

研究の動機と目的

  • 離散表現を用いたテキスト-to-motion 生成をシンプルかつ効果的に動機づける。
  • EMA と Code Reset を用いた VQ-VAE が高品質なモーションコードを生成できることを示す。
  • シーケンス破損を用いて訓練した GPT のようなモデルが、生成されたモーションとテキスト記述を整合させることを示す。
  • 標準ベンチマーク(HumanML3D、KIT-ML)で拡散ベースの手法と比較評価。
  • 量子化戦略とデータセットサイズが性能に与える影響を分析。

提案手法

  • 2段階フレームワーク: (1) Motion VQ-VAE がモーション系列をコードインデックスへ写像する離散コードを学習; (2) T2M-GPT がテキスト条件付き埋め込みからコードインデックスを自回帰的に生成する。
  • Motion VQ-VAE は learnable codebook を備えた CNN ベースのエンコーダ/デコーダを使用; 再構成損失は L1 平滑損失と速度正則化を組み込む。
  • VQ-VAE 訓練中のコードブック崩壊を緩和するために EMA と Code Reset の量子化戦略を使用。
  • T2M-GPT は因果的自己注意を持つ GPT様のトランスフォーマを用いて p(S|c) をモデリング。ここで S はコードインデックス列と End トークンを含む; CLIP はテキスト埋め込みを条件付けとして提供。
  • GPT 訓練中の単純な破損戦略が訓練データを補強し、訓練とテストの乖離を緩和。

実験結果

リサーチクエスチョン

  • RQ1離散潜在表現(VQ-VAE を介して)がテキスト記述と一致するモーションを再構成・生成する能力はどの程度か?
  • RQ2テキストで条件付けされた GPT ベースの自回帰モデルは、拡散ベースの手法と比較してテキスト-to-motion の性能を競えるか?
  • RQ3量子化戦略(EMA、Code Reset)が再構成と生成品質に与える影響は?
  • RQ4標準ベンチマークでトレーニングデータサイズがテキスト-to-motion の性能にどう影響するか?
  • RQ5End トークンによる停止長の暗黙的モデリングは、明示的なモーション長予測を代替してモーション長を効果的に制御できるか?

主な発見

  • EMA または Code Reset を用いた VQ-VAE は高品質な再構成と生成を達成し、素朴な訓練を上回る。
  • シーケンス破損を用いた GPT ベースのモデルは訓練と検証の乖離を減らし、テキスト-モーションの整合性を高める。
  • HumanML3D と KIT-ML で、T2M-GPT は拡散法と同等の R-Precision を達成し、FID は大幅に改善(例: HumanML3D で 0.116 対 0.630 など)。
  • より大きなデータセットは性能をさらに向上させ、データ量の増加で潜在的な利得がある。
  • End トークンによる暗黙的長さモデル化は、長さ予測器を別途持たなくてもモーション長の制御を効果的に提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。