[论文解读] T2M-GPT: Generating Human Motion from Textual Descriptions with Discrete Representations
提出一个两阶段框架(Motion VQ-VAE + GPT),使用离散编码从文本生成人体动作,在标准数据集上与扩散模型相比具有竞争力的结果。
In this work, we investigate a simple and must-known conditional generative framework based on Vector Quantised-Variational AutoEncoder (VQ-VAE) and Generative Pre-trained Transformer (GPT) for human motion generation from textural descriptions. We show that a simple CNN-based VQ-VAE with commonly used training recipes (EMA and Code Reset) allows us to obtain high-quality discrete representations. For GPT, we incorporate a simple corruption strategy during the training to alleviate training-testing discrepancy. Despite its simplicity, our T2M-GPT shows better performance than competitive approaches, including recent diffusion-based approaches. For example, on HumanML3D, which is currently the largest dataset, we achieve comparable performance on the consistency between text and generated motion (R-Precision), but with FID 0.116 largely outperforming MotionDiffuse of 0.630. Additionally, we conduct analyses on HumanML3D and observe that the dataset size is a limitation of our approach. Our work suggests that VQ-VAE still remains a competitive approach for human motion generation.
研究动机与目标
- 以离散表示为基础,激发简单且高效的文本到动作生成。
- 证明使用 EMA 和 Code Reset 的 VQ-VAE 能生成高质量的运动代码。
- 展示通过序列损坏训练的类似 GPT 的模型能够将文本描述与生成的动作对齐。
- 在标准基准(HumanML3D、KIT-ML)上,与基于扩散的方法进行比较评估。
- 分析量化策略和数据集规模对性能的影响。
提出的方法
- 两阶段框架:(1)Motion VQ-VAE 学习将运动序列映射到代码索引的离散编码;(2)T2M-GPT 自回归地从文本条件嵌入生成代码索引。
- Motion VQ-VAE 使用基于 CNN 的编码器/解码器,具备可学习的代码本;重建损失结合 L1 平滑损失和速度正则化。
- 在 VQ-VAE 训练中使用量化策略 EMA 和 Code Reset 以降低代码本塌陷。
- T2M-GPT 使用带因果自注意力的 GPT-like 变换器来建模 p(S|c),其中 S 是代码索引序列再加上 End 标记;CLIP 提供文本嵌入作为条件。
- 在 GPT 训练中的一个简单损坏策略可以扩充训练数据并减小训练-测试差异。
实验结果
研究问题
- RQ1离散潜在表示(通过 VQ-VAE)在多大程度上能够重建和生成与文本描述相匹配的动作?
- RQ2基于文本条件的 GPT 自回归模型在文本到动作任务上的表现是否能与扩散方法相比拟?
- RQ3量化策略(EMA、Code Reset)对重建和生成质量的影响?
- RQ4训练数据规模如何影响在标准基准上的文本到动作表现?
- RQ5停止标记 End 是否能够有效替代显式的运动长度预测来控制动作持续时间?
主要发现
- 使用 EMA 或 Code Reset 的 VQ-VAE 实现了高质量的重建与生成,优于简单的训练方式。
- 带序列损坏的 GPT-base 模型降低了训练-测试差异,并带来强烈的文本-动作一致性。
- 在 HumanML3D 与 KIT-ML 上,T2M-GPT 达到与扩散方法可比的 R-Precision,且 FID 显著更好(例如在 HumanML3D 上 0.116 对 0.630)。
- 更大的数据集进一步提升性能,表明更多数据可能带来收益。
- 通过 End 标记进行的隐式长度建模在没有单独长度预测器的情况下也能有效控制动作持续时间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。