[论文解读] Learning Delicate Local Representations for Multi-Person Pose Estimation
论文提出 Residual Steps Network (RSN) 用于高效同层特征融合以学习精细的局部表示,以及 Pose Refine Machine (PRM) 来平衡局部/全局输出特征,在 COCO 和 MPII 上无需额外数据就达到最先进结果。
In this paper, we propose a novel method called Residual Steps Network (RSN). RSN aggregates features with the same spatial size (Intra-level features) efficiently to obtain delicate local representations, which retain rich low-level spatial information and result in precise keypoint localization. Additionally, we observe the output features contribute differently to final performance. To tackle this problem, we propose an efficient attention mechanism - Pose Refine Machine (PRM) to make a trade-off between local and global representations in output features and further refine the keypoint locations. Our approach won the 1st place of COCO Keypoint Challenge 2019 and achieves state-of-the-art results on both COCO and MPII benchmarks, without using extra training data and pretrained model. Our single model achieves 78.6 on COCO test-dev, 93.0 on MPII test dataset. Ensembled models achieve 79.2 on COCO test-dev, 77.1 on COCO test-challenge dataset. The source code is publicly available for further research at https://github.com/caiyuanhao1998/RSN/
研究动机与目标
- Motivation: 提高关键点定位,通过在同一特征层内保留细腻的局部空间信息。
- Goal: 提出同层级特征融合,以学习更丰富的局部表示用于多人姿态估计。
- Aim: 设计一个输出特征重加权机制(PRM),以平衡局部与全局线索,从而提高关键点准确性。
- Demonstrate that RSN+PRM achieves state-of-the-art results on COCO and MPII without extra data or pretrained models.
提出的方法
- 提出 Residual Steps Network (RSN) 以在 Residual Steps Blocks (RSB) 内通过密集逐元素求和融合同层级特征。
- RSB 将特征分成四个分支,应用 conv1x1 和增量 conv3x3,并通过密集连接进行融合,以扩大感受野覆盖范围(最多到 15)。
- 介绍 Pose Refine Machine (PRM) 作为输出端的注意力模块,通过多路径设计(通道和空间注意力通路)来重新平衡局部/全局表示。
- PRM 使用全局池化路径(通道维度)和深度卷积 9x9 路径(空间)加上单位路径来计算 f_out = K(f_in) ⊗ (1 + β ⊗ α)。
- 在 COCO 和 MPII 上训练评估 RSN+PRM,并与 ResNet、Res2Net、DenseNet 基线以及 HRNet 家族进行比较。
- 显示 RSN 在相近 GFLOPs 下比基线具有更好性能,并提供高效、准确的关键点定位。
实验结果
研究问题
- RQ1是否在同一分辨率内的同层融合能够提升精细的局部表示,从而改进关键点定位?
- RQ2基于注意力的重加权(PRM)是否能够适当地权衡局部与全局特征,以提升姿态估计精度?
- RQ3就准确性、效率和定位质量而言,RSN 与 DenseNet、Res2Net、OSNet 在 COCO 和 MPII 上的比较如何?
- RQ4PRM 是否在单阶段和多阶段架构中均有益处,且在替换如 SE-CBAM 的标准注意力模块时也有效?
- RQ5在姿态估计任务中,RSN 相对于 HRNet 在 CPU/GPU 上的性能与速度权衡如何?
主要发现
| 骨干网络 | 输入尺寸 | AP | Δ | GFLOPs |
|---|---|---|---|---|
| ResNet-18 | 256 × 192 | 70.7 | 0 | 2.3 |
| Res2Net-18 | 256 × 192 | 71.3 | +0.6 | 2.2 |
| Baseline1-18 | 256 × 192 | 72.9 | +2.1 | 2.5 |
| Baseline2-18 | 256 × 192 | 72.1 | +1.4 | 2.5 |
| RSN-18 | 256 × 192 | 73.6 | +2.9 | 2.5 |
| ResNet-50 | 256 × 192 | 72.2 | 0 | 4.6 |
| Res2Net-50 | 256 × 192 | 72.8 | +0.6 | 4.5 |
| Baseline1-50 | 256 × 192 | 73.7 | +1.5 | 6.4 |
| Baseline2-50 | 256 × 192 | 72.7 | +0.5 | 6.4 |
| RSN-50 | 256 × 192 | 74.7 | +2.5 | 6.4 |
| ResNet-101 | 256 × 192 | 73.2 | 0 | 7.5 |
| Res2Net-101 | 256 × 192 | 73.9 | +0.7 | 7.5 |
| RSN-101 | 256 × 192 | 75.8 | +2.5 | 11.5 |
| 4 × ResNet-50 | 256 × 192 | 76.8 | 0 | 20.6 |
| 4 × Res2Net-50 | 256 × 192 | 77.0 | +0.2 | 20.1 |
| 4 × RSN-50 | 256 × 192 | 78.6 | +1.8 | 27.5 |
| 4 × RSN-50 | 384 × 288 | 79.2 | +1.7 | 61.9 |
- RSN 在相近 GFLOPs 下持续优于 ResNet 和 Res2Net 的 AP(例如 RSN-18 相对 ResNet-18 提升 2.9 AP,RSN-50 相对 ResNet-50 提升 2.5 AP)。
- RSN 保持高效,并在模型容量增大时超过 DenseNet 和 Res2Net,保持更高的 AP 在更大 GFLOPs。
- PRM 提升单阶段和多阶段网络,相对于无注意力基线带来 AP 增益(例如 ResNet-18 + PRM 提高 1.5 AP)。
- 在 COCO test-dev 上,RSN-50 4x RSN-50 达到 78.0 AP(单模型),以及 RSN-50 集成在 384x288 输入上达到 79.2 AP,无预训练骨干。
- 在 MPII,RSN 获得 93.0% PCKh@0.5 的平均值,4x RSN-50。
- RSN 相对于 HRNet 在推理速度上更快,在 GPU 上实现更高的帧率,在 CPU 性能更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。