[论文解读] Humans in 4D: Reconstructing and Tracking Humans with Transformers
论文介绍了 HMR 2.0,这是一个完全基于变换器的三维人体网格恢复模型,并构建了 4DHumans 以在视频中联合重建和跟踪多个人,达到最先进的跟踪性能和强大的姿态/动作识别能力。
We present an approach to reconstruct humans and track them over time. At the core of our approach, we propose a fully "transformerized" version of a network for human mesh recovery. This network, HMR 2.0, advances the state of the art and shows the capability to analyze unusual poses that have in the past been difficult to reconstruct from single images. To analyze video, we use 3D reconstructions from HMR 2.0 as input to a tracking system that operates in 3D. This enables us to deal with multiple people and maintain identities through occlusion events. Our complete approach, 4DHumans, achieves state-of-the-art results for tracking people from monocular video. Furthermore, we demonstrate the effectiveness of HMR 2.0 on the downstream task of action recognition, achieving significant improvements over previous pose-based action recognition approaches. Our code and models are available on the project website: https://shubham-goel.github.io/4dhumans/.
研究动机与目标
- 为从单幅图像进行 3D 人体姿态与形状重建提出基于变换器的方法的动机。
- 开发 HMR 2.0,作为完全的变换器骨干,在 3D 姿态精度方面超越基于CNN/LSTM的方法。
- 创建 4DHumans,在存在遮挡的情况下实现对视频中多个人的联合重建与跟踪。
- 演示通过使用 HMR 2.0 的 3D 姿态估计提升下游动作识别性能。
- 通过将基于 SMPL 的表示与 3D 跟踪集成,提供一个多功能的跟踪框架。
提出的方法
- 用 ViT-H/16 的图像编码器取代传统的 CNN/LSTM 组件
- 使用变换器解码器从图像 token 回归 SMPL 参数(theta 的偏移、形状 beta,以及相机平移 pi)
- 通过 2D/3D 损失与对抗先验的混合训练来强制有效的 3D 姿态
- 通过现成检测器和 ProHMR 拟合在未标注数据上生成伪地面真相的 SMPL 拟合
- 将 HMR 2.0 集成到 PHALP′ 的 3D 跟踪框架中,创建 4DHumans 以实现联合重建与跟踪
- 通过将姿态估计输入到 AVA 的下游基于变换器的分类器中,演示动作识别的改进
实验结果
研究问题
- RQ1完全基于变换器的架构能否从单幅图像实现最先进的 3D 人体网格恢复?
- RQ2将 HMR 2.0 提升到 3D 以实现对视频中的跟踪性能是否能得到改善?
- RQ3来自 HMR 2.0 的 3D 姿态质量如何影响下游动作识别?
- RQ4基于 PHALP′ 的跟踪管线是否足够通用,能够接入不同的 3D 姿态估计器?
- RQ5训练数据规模和骨干网络预训练对姿态/2D 对齐性能有何影响?
主要发现
| Tracker | Pose Engine | Posetrack | HOTA ↑ | IDs ↓ | MOTA ↑ | IDF1 ↑ |
|---|---|---|---|---|---|---|
| PHALP' | PARE [34] | 53.6 | 510 | 59.4 | 76.8 | |
| PyMAF-X [88] | – | 53.7 | 472 | 59.2 | 76.9 | |
| CLIFF [41] | – | 53.5 | 551 | 58.7 | 76.5 | |
| PyMAF [89] | – | 53.0 | 623 | 58.6 | 76.1 | |
| HMAR [65] | – | 53.6 | 482 | 59.3 | 77.1 | |
| HMR 2.0 | – | 54.1 | 456 | 59.4 | 77.4 |
- HMR 2.0 在 3D 姿态精度(MPJPE/PA-MPJPE)和 2D 关键点再投影指标上优于先前方法,且对具有挑战性的姿态表现尤为突出。
- 4DHumans 在 PoseTrack 上实现了最先进的跟踪,ID 换位和总体跟踪指标有所提升。
- 来自 HMR 2.0 的演员姿态质量显著提升 AVA 上的动作识别性能,在结合外观特征时达到 42.3 mAP。
- 具备 SMPL‑space 表示的 PHALP′ 提供了一个可与多种 3D 姿态估计器兼容的多功能跟踪骨干。
- 更大且更具多样性的训练数据和 ViT 预训练相比基线 CNN 骨干带来显著增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。