[论文解读] TFPose: Direct Human Pose Estimation with Transformers
TFPose 将 2D 人体姿态估计重新框架为序列预测任务,并使用 Transformer 直接回归关键点坐标,在回归方法中达到最先进水平,在热图方法上具有竞争力。
We propose a human pose estimation framework that solves the task in the regression-based fashion. Unlike previous regression-based methods, which often fall behind those state-of-the-art methods, we formulate the pose estimation task into a sequence prediction problem that can effectively be solved by transformers. Our framework is simple and direct, bypassing the drawbacks of the heatmap-based pose estimation. Moreover, with the attention mechanism in transformers, our proposed framework is able to adaptively attend to the features most relevant to the target keypoints, which largely overcomes the feature misalignment issue of previous regression-based methods and considerably improves the performance. Importantly, our framework can inherently take advantages of the structured relationship between keypoints. Experiments on the MS-COCO and MPII datasets demonstrate that our method can significantly improve the state-of-the-art of regression-based pose estimation and perform comparably with the best heatmap-based pose estimation methods.
研究动机与目标
- 用热图方法弥补回归式姿态估计的差距。
- 利用 Transformer 建立关键点之间的时空依赖。
- 消除热图后处理和量化的限制。
- 实现端到端可微分的姿态估计训练。
提出的方法
- 将单人姿态估计表述为关键点的 K 长序列预测。
- 使用 CNN 主干提取多层特征,再与 Transformer 编码器融合。
- 部署带可学习关键点查询的 Transformer 解码器以预测 K 个 2D 坐标。
- 引入查询到查询的注意力以捕捉关键点之间的结构关系。
- 使用解码层的 L1 回归损失与辅助热图损失的组合来加速收敛。
- 在后续解码层预测改进量 Delta y_d 以实现渐进提升。
实验结果
研究问题
- RQ1基于 Transformer 的回归框架是否能超越传统的回归姿态方法?
- RQ2引入查询到查询的注意力是否有助于建模关键点之间的结构?
- RQ3辅助热图监督如何影响收敛性和变换基姿态模型的准确性?
- RQ4编码器/解码器配置对 COCO MPII 姿态估计准确性的权衡如何?
- RQ5使用带有 Transformer 的回归方法在标准基准上能否接近热图方法的 state-of-the-art?
主要发现
| 模型 | 骨干网 | 输入尺寸 | GFLOPs | AP(OKS) | AP^kp_50 | AP^kp_75 | AP^kp_M | AP^kp_L |
|---|---|---|---|---|---|---|---|---|
| DeepPose | ResNet-101 | 256×192 | 7.69 | 56.0 | 81.8 | 61.8 | 49.8 | 67.0 |
| DeepPose | ResNet-152 | 256×192 | 11.34 | 58.3 | 87.6 | 66.7 | 56.8 | 64.9 |
| 8-stage Hourglass | - | 256×192 | 19.5 | 66.9 | 81.0 | 70.0 | 63.0 | 67.0 |
| 8-stage Hourglass | - | 256×256 | 25.9 | 67.1 | 82.0 | 71.0 | 66.0 | 68.0 |
| CPN | ResNet-50 | 256×192 | 6.2 | 68.6 | 87.0 | 70.0 | 57.4 | 71.1 |
| CPN | ResNet-50 | 384×288 | 13.9 | 70.6 (71.6) | 91.4 | 80.0 | 68.7 | 77.2 |
| SimpleBaseline | ResNet-50 | 256×192 | 8.9 | 70.4 | 90.9 | 77.9 | 66.8 | 75.8 |
| Ours (N_D=4) | ResNet-50 | 256×192 | 7.68 | 70.5 | 90.4 | 78.7 | 67.6 | 76.8 |
| Ours (N_D=6) | ResNet-50 | 256×192 | 9.2 | 71.0 | 90.5 | 79.0 | 68.1 | 77.0 |
| Ours (N_D=6) | ResNet-50 | 384×288 | 20.4 | 72.2 | 90.9 | 80.1 | 69.1 | 78.8 |
- TFPose 显著提升基于回归的姿态估计,超越了先前的回归方法在 COCO 与 MPII。
- 使用查询到查询的注意力在 COCO val2017 上带来可测量的 AP 增益(约 1.3% AP)。
- 256 通道的 Transformer 编码器输入在 AP 上优于 128 通道配置。
- 增加解码器深度在第三层前有提升,随后趋于饱和;最佳结果在 6 层解码器时报道。
- 辅助热图损失加速收敛并将 AP 提升约 2.3 个点。
- 使用 ResNet-50 主干的 TFPose 在 COCO test-dev 上对比热图方法具有竞争力,GFLOPs 较低(如 70.9–72.2 AP 取决于配置)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。