QUICK REVIEW

[論文レビュー] Language-Guided Transformer Tokenizer for Human Motion Generation

Sheng Yan, Yong Wang|arXiv (Cornell University)|Feb 9, 2026

Human Motion and Animation被引用数 0

ひとこと要約

LG-TokはTransformerベースの言語誘導モーショントークナイザと、トークン化時に自然言語とモーションを整列させる言語ドロップ学習スキームを導入し、テキストからモーションへの生成と再構成の効率を向上させる。

ABSTRACT

In this paper, we focus on motion discrete tokenization, which converts raw motion into compact discrete tokens--a process proven crucial for efficient motion generation. In this paradigm, increasing the number of tokens is a common approach to improving motion reconstruction quality, but more tokens make it more difficult for generative models to learn. To maintain high reconstruction quality while reducing generation complexity, we propose leveraging language to achieve efficient motion tokenization, which we term Language-Guided Tokenization (LG-Tok). LG-Tok aligns natural language with motion at the tokenization stage, yielding compact, high-level semantic representations. This approach not only strengthens both tokenization and detokenization but also simplifies the learning of generative models. Furthermore, existing tokenizers predominantly adopt convolutional architectures, whose local receptive fields struggle to support global language guidance. To this end, we propose a Transformer-based Tokenizer that leverages attention mechanisms to enable effective alignment between language and motion. Additionally, we design a language-drop scheme, in which language conditions are randomly removed during training, enabling the detokenizer to support language-free guidance during generation. On the HumanML3D and Motion-X generation benchmarks, LG-Tok achieves Top-1 scores of 0.542 and 0.582, outperforming state-of-the-art methods (MARDM: 0.500 and 0.528), and with FID scores of 0.057 and 0.088, respectively, versus 0.114 and 0.147. LG-Tok-mini uses only half the tokens while maintaining competitive performance (Top-1: 0.521/0.588, FID: 0.085/0.071), validating the efficiency of our semantic representations.

研究の動機と目的

離散トークン化におけるモーション再構成品質と生成難易度のトレードオフを動機づけ、解決する。
グローバルな言語–モーション整列を可能にするTransformerベースのトークナイザ/デトークナイザを提案する。
トークン化へ自然言語ガイダンスを組み込み、コンパクトな意味表現を生成する。
生成時に言語非依存の指針を可能にする言語ドロップスキームを導入する。
標準的なテキストからモーションへのベンチマークで性能向上を示す。

提案手法

学習可能な潜在トークンをモーションと（任意で）テキスト埋め込みと連結して、意味情報を持つ離散トークンを生成するTransformerベースのトークナイザを使用する。
マルチスケールVQスキームでトークナイザ出力を量子化し、トークンスケールでスケーラブルな自己回帰生成を適用する（SAR）。
デコーダ側は、デクオン化埋め込み、学習可能マスクトークン、およびテキスト埋め込み間のクロスアテンションを用いたTransformerベースのデトークナイザを用いてモーションを再構成する。
テキストエンコーダ（例：LLaMA）の凍結済みテキスト埋め込みをトークナイザとデトークナイザの両方に注入して高レベルの意味表現を得る、Language-Guided Tokenization（LG-Tok）を統合する。
訓練中に言語ガイダンスをランダムに欠落させる（10%確率）言語ドロップスキームを適用して、生成時の言語非依存ガイダンスを可能にする。
生成時にはモーション空間で無条件モーションと条件付きモーションをガイダンススケールgで線形結合するガイダンス機構を使用する。

Figure 1 : Comparison between previous CNN-based tokenizers and our Language-Guided Transformer Tokenizer (LG-Tok). Our method aligns language and motion during tokenization, leveraging the transformer’s flexibility.

実験結果

リサーチクエスチョン

RQ1言語説明はモーショントークンの意味的負担を軽減しつつ再構成忠実度を保てるか。
RQ2Transformerベースで言語誘導を用いるトークナイザは、CNNベースのトークナイザと比較してグローバル文脈と言語–モーションの整列を改善するか。
RQ3トークン化とデトークン化の両方に言語ガイダンスを注入すると、ベンチマーク全体で生成と再構成が改善されるか。
RQ4推論時に言語ガイダンスが利用できない場合、言語ドロップスキームは生成にどのような影響を与えるか。
RQ5LG-Tokを使用した場合、HumanML3DおよびMotion-Xの標準ベンチマークで、最先端のトークナイザと比較してどの程度性能が向上するか。

主な発見

LG-TokはHumanML3DでTop-1 R-Precisionが0.542、FIDが0.057、Motion-Xで0.582と0.088という最先端の結果を達成。
LG-Tok-mini（104トークン）は競争力のある結果を維持し、意味表現の効率性を示す。
LG-Tokのバリアントは、HumanML3DおよびMotion-Xの再構成と生成の指標で一貫してベースラインを上回る。
言語ガイダンスをトークナイザとデトークナイザの両方へ組み込むと、アブレーション実験で最も良い結果を示す。
言語ドロップスキームは、訓練を最小限に乱さず生成時の言語非依存ガイダンスを可能にする。
LG-Tokは困難さの高い学習を示す指標であるパープレキシティを改善し（Motion-X）、低FIDを維持し、言語誘導トークンの学習をより容易かつ効果的にすることを示す。

Figure 2 : Generation quality on HumanML3D.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。