QUICK REVIEW

[论文解读] Multi-Person 3D Motion Prediction with Multi-Range Transformers

Jiashun Wang, Huazhe Xu|arXiv (Cornell University)|Nov 23, 2021

Human Pose and Action Recognition被引用 35

一句话总结

引入一个 Multi-Range Transformers 框架，包含 local-range 编码器和 global-range 编码器，以及一个 Transformer 解码器，用于预测多人人 3D 动作，实现长时预测的最先进性能以及对社交互动的可扩展分组。

ABSTRACT

We propose a novel framework for multi-person 3D motion trajectory prediction. Our key observation is that a human's action and behaviors may highly depend on the other persons around. Thus, instead of predicting each human pose trajectory in isolation, we introduce a Multi-Range Transformers model which contains of a local-range encoder for individual motion and a global-range encoder for social interactions. The Transformer decoder then performs prediction for each person by taking a corresponding pose as a query which attends to both local and global-range encoder features. Our model not only outperforms state-of-the-art methods on long-term 3D motion prediction, but also generates diverse social interactions. More interestingly, our model can even predict 15-person motion simultaneously by automatically dividing the persons into different interaction groups. Project page with code is available at https://jiashunwang.github.io/MRT/.

研究动机与目标

动机：场景中的他人影响着人类运动，因此需要联合多人人预测。
目标：开发一个能够同时对个体运动与社交互动进行联合推理的模型，以提升长期 3D 动作预测。
目标：实现高精度、多样化且可扩展的多人人运动预测，预测长达 3 秒的前向运动，包括多人场景。

提出的方法

两分支编码器设计：一个 local-range Transformer 编码器处理每个人的历史以实现平滑的个体运动，另一个 global-range Transformer 编码器处理跨时间的跨人社交互动。
一个 Transformer 解码器使用一个单一观测姿态作为查询，通过关注 local-range 与 global-range 编码器特征来生成未来运动。
将 Spatial positional encoding 添加到全局特征，以帮助聚类互动人群并增强多人人分组。
判别器模块以对抗性方式训练，以鼓励自然且连续的运动；训练结合重建损失和对抗损失。
输入以世界坐标和绝对关节位置表示，模型通过 IDCT/线性路径输出一系列运动增量，以产生 3D 轨迹。
训练使用逐步增长的输入序列和自回归推断以降低误差积累。

实验结果

研究问题

RQ1联合局部范围和全局范围 Transformer 是否能够有效建模个体运动与社交互动，以实现多人人 3D 轨迹预测？
RQ2使用单个姿态作为解码器查询并预测运动增量是否能提升长期预测质量并减少运动冻结？
RQ3模型是否能够扩展到含 9–15 人的场景并在没有显式分组标签的情况下自动形成互动分组？

主要发现

所提的 Multi-Range Transformer (MRT) 在 CMU-Mocap、MuPoTS-3D 和 3DPW 数据集上实现了长期 3D 运动预测的最先进性能。
消融实验显示 local-range 编码器和 global-range 编码器均对性能提升有贡献，且 spatial positional encoding 在拥挤场景中提升了结果。
使用单一查询姿态作为解码器有效地防止运动重复并降低长期预测中的漂移。
该模型在社交互动方面展示了定性多样性，并且可以基于注意力模式隐式地对个体进行分组，而无需显式的分组注释。
对 9–15 个人的实验表明 MRT 能处理人群场景并保持自然运动。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。