QUICK REVIEW

[論文レビュー] T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations

Jianrong Zhang, Yangsong Zhang|arXiv (Cornell University)|Jan 15, 2023

Human Pose and Action Recognition被引用数 20

ひとこと要約

二段階フレームワークを提案（Motion VQ-VAE + GPT）で、離散コードを用いてテキストから人間の動作を生成し、標準データセット上で拡散モデルと競合する結果を達成。

ABSTRACT

In this work, we investigate a simple and must-known conditional generative framework based on Vector Quantised-Variational AutoEncoder (VQ-VAE) and Generative Pre-trained Transformer (GPT) for human motion generation from textural descriptions. We show that a simple CNN-based VQ-VAE with commonly used training recipes (EMA and Code Reset) allows us to obtain high-quality discrete representations. For GPT, we incorporate a simple corruption strategy during the training to alleviate training-testing discrepancy. Despite its simplicity, our T2M-GPT shows better performance than competitive approaches, including recent diffusion-based approaches. For example, on HumanML3D, which is currently the largest dataset, we achieve comparable performance on the consistency between text and generated motion (R-Precision), but with FID 0.116 largely outperforming MotionDiffuse of 0.630. Additionally, we conduct analyses on HumanML3D and observe that the dataset size is a limitation of our approach. Our work suggests that VQ-VAE still remains a competitive approach for human motion generation.

研究の動機と目的

離散表現を用いたテキスト-to-motion 生成をシンプルかつ効果的に動機づける。
EMA と Code Reset を用いた VQ-VAE が高品質なモーションコードを生成できることを示す。
シーケンス破損を用いて訓練した GPT のようなモデルが、生成されたモーションとテキスト記述を整合させることを示す。
標準ベンチマーク（HumanML3D、KIT-ML）で拡散ベースの手法と比較評価。
量子化戦略とデータセットサイズが性能に与える影響を分析。

提案手法

2段階フレームワーク: (1) Motion VQ-VAE がモーション系列をコードインデックスへ写像する離散コードを学習; (2) T2M-GPT がテキスト条件付き埋め込みからコードインデックスを自回帰的に生成する。
Motion VQ-VAE は learnable codebook を備えた CNN ベースのエンコーダ/デコーダを使用; 再構成損失は L1 平滑損失と速度正則化を組み込む。
VQ-VAE 訓練中のコードブック崩壊を緩和するために EMA と Code Reset の量子化戦略を使用。
T2M-GPT は因果的自己注意を持つ GPT様のトランスフォーマを用いて p(S|c) をモデリング。ここで S はコードインデックス列と End トークンを含む; CLIP はテキスト埋め込みを条件付けとして提供。
GPT 訓練中の単純な破損戦略が訓練データを補強し、訓練とテストの乖離を緩和。

実験結果

リサーチクエスチョン

RQ1離散潜在表現（VQ-VAE を介して）がテキスト記述と一致するモーションを再構成・生成する能力はどの程度か？
RQ2テキストで条件付けされた GPT ベースの自回帰モデルは、拡散ベースの手法と比較してテキスト-to-motion の性能を競えるか？
RQ3量子化戦略（EMA、Code Reset）が再構成と生成品質に与える影響は？
RQ4標準ベンチマークでトレーニングデータサイズがテキスト-to-motion の性能にどう影響するか？
RQ5End トークンによる停止長の暗黙的モデリングは、明示的なモーション長予測を代替してモーション長を効果的に制御できるか？

主な発見

EMA または Code Reset を用いた VQ-VAE は高品質な再構成と生成を達成し、素朴な訓練を上回る。
シーケンス破損を用いた GPT ベースのモデルは訓練と検証の乖離を減らし、テキスト-モーションの整合性を高める。
HumanML3D と KIT-ML で、T2M-GPT は拡散法と同等の R-Precision を達成し、FID は大幅に改善（例: HumanML3D で 0.116 対 0.630 など）。
より大きなデータセットは性能をさらに向上させ、データ量の増加で潜在的な利得がある。
End トークンによる暗黙的長さモデル化は、長さ予測器を別途持たなくてもモーション長の制御を効果的に提供。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。