[论文解读] DirectPose: Direct End-to-End Multi-Person Pose Estimation
DirectPose 提供一个完全端到端的单 shot 框架,用于直接的实例感知关键点预测,不需要边界框检测或事后分组,受益于新颖的关键点对齐(KPAlign)模块,以及训练时可选的基于热图的正则化。
We propose the first direct end-to-end multi-person pose estimation framework, termed DirectPose. Inspired by recent anchor-free object detectors, which directly regress the two corners of target bounding-boxes, the proposed framework directly predicts instance-aware keypoints for all the instances from a raw input image, eliminating the need for heuristic grouping in bottom-up methods or bounding-box detection and RoI operations in top-down ones. We also propose a novel Keypoint Alignment (KPAlign) mechanism, which overcomes the main difficulty: lack of the alignment between the convolutional features and predictions in this end-to-end framework. KPAlign improves the framework's performance by a large margin while still keeping the framework end-to-end trainable. With the only postprocessing non-maximum suppression (NMS), our proposed framework can detect multi-person keypoints with or without bounding-boxes in a single shot. Experiments demonstrate that the end-to-end paradigm can achieve competitive or better performance than previous strong baselines, in both bottom-up and top-down methods. We hope that our end-to-end approach can provide a new perspective for the human pose estimation task.
研究动机与目标
- 推动一种直接的端到端多人体姿态估计方法,绕过边界框检测和关键点分组。
- 通过引入一个端到端可训练的流程来消除不可微的后处理。
- 通过特征-预测对齐(KPAlign)提升关键点定位精度。
- 在 COCO 数据集上展示与强基线(自上而下和自下而上方法)竞争力。
提出的方法
- 在无锚框的 FCOS 检测器上增设一个关键点检测头,以回归每个实例的 K 个关键点的 2K 坐标。
- 引入 KPAlign,通过定位器(采样位置)和预测器(逐关键点回归)将局部特征与预测的关键点对齐。
- 允许通过可微采样与对齐实现端到端的回归式关键点预测。
- 在训练时可选的基于热图的辅助任务,用以正则化回归学习(测试时移除)。
- 尝试分组与单独的特征图,以降低计算量并提升性能。
- 在有无边界框检测的情形下进行评估,并与 COCO 上的最先进自上而下和自下而上方法进行对比。
实验结果
研究问题
- RQ1一个端到端的单阶段框架是否能够在不进行边界框检测或基于 RoI 的操作的情况下,直接将输入图像映射到实例感知的关键点?
- RQ2特征-关键点对齐(KPAlign)是否能显著提升端到端的关键点回归性能?
- RQ3在 COCO 上,端到端方法在精度和速度方面与传统的自上而下和自下而上方法相比如何?
- RQ4在训练中,辅助热图学习对基于回归的关键点预测有什么影响?
- RQ5在可选地与边界框检测结合以处理共享任务时,该方法是否具有鲁棒性?
主要发现
| 方法 | AP kp | AP kp_50 | AP kp_75 | AP kp_M | AP kp_L |
|---|---|---|---|---|---|
| Ours (R-50) | 62.2 | 86.4 | 68.2 | 56.7 | 69.8 |
| Ours (R-50) † | 63.0 | 86.8 | 69.3 | 59.1 | 69.3 |
| Ours (R-101) | 63.3 | 86.7 | 69.4 | 57.8 | 71.2 |
| Ours (R-101) † | 64.8 | 87.8 | 71.1 | 60.4 | 71.5 |
- 端到端的 DirectPose 搭配 KPAlign 在 COCO 上的关键点 AP 与强基线相比具有竞争力。
- KPAlign 相较于天真端到端关键点回归在多数消融中提升显著(超过 7 AP 点)。
- 分组的 KPAlign 与分离的特征图在提高准确性的同时带来可观的计算代价权衡。
- 将热图学习作为辅助训练任务显著提升回归式关键点 AP(例如,8 倍热图将 AP 从 52.2 提升至 58.0)。
- 在不使用额外装饰的情况下,直接 Pose(R-50)在 COCO test-dev 上达到 62.2 AP kp;使用 R-101 时为 63.3 AP kp;多尺度测试分别提升到 63.0 和 64.8。
- 该方法在 COCO minival 上使用 ResNet 主干时,每张图像大约 74-87 毫秒的推理时间,与在类似设置下的 Mask R-CNN 相当或更快。
- 与边界框检测结合时,该框架在 minival 上可达到 61.5 AP kp 和 55.3 AP bb,体现了与边界框分支的兼容性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。