Skip to main content
QUICK REVIEW

[论文解读] Learning Delicate Local Representations for Multi-Person Pose Estimation

Yuanhao Cai, Zhicheng Wang|arXiv (Cornell University)|Mar 9, 2020
Human Pose and Action Recognition参考文献 32被引用 37
一句话总结

论文提出 Residual Steps Network (RSN) 用于高效同层特征融合以学习精细的局部表示,以及 Pose Refine Machine (PRM) 来平衡局部/全局输出特征,在 COCO 和 MPII 上无需额外数据就达到最先进结果。

ABSTRACT

In this paper, we propose a novel method called Residual Steps Network (RSN). RSN aggregates features with the same spatial size (Intra-level features) efficiently to obtain delicate local representations, which retain rich low-level spatial information and result in precise keypoint localization. Additionally, we observe the output features contribute differently to final performance. To tackle this problem, we propose an efficient attention mechanism - Pose Refine Machine (PRM) to make a trade-off between local and global representations in output features and further refine the keypoint locations. Our approach won the 1st place of COCO Keypoint Challenge 2019 and achieves state-of-the-art results on both COCO and MPII benchmarks, without using extra training data and pretrained model. Our single model achieves 78.6 on COCO test-dev, 93.0 on MPII test dataset. Ensembled models achieve 79.2 on COCO test-dev, 77.1 on COCO test-challenge dataset. The source code is publicly available for further research at https://github.com/caiyuanhao1998/RSN/

研究动机与目标

  • Motivation: 提高关键点定位,通过在同一特征层内保留细腻的局部空间信息。
  • Goal: 提出同层级特征融合,以学习更丰富的局部表示用于多人姿态估计。
  • Aim: 设计一个输出特征重加权机制(PRM),以平衡局部与全局线索,从而提高关键点准确性。
  • Demonstrate that RSN+PRM achieves state-of-the-art results on COCO and MPII without extra data or pretrained models.

提出的方法

  • 提出 Residual Steps Network (RSN) 以在 Residual Steps Blocks (RSB) 内通过密集逐元素求和融合同层级特征。
  • RSB 将特征分成四个分支,应用 conv1x1 和增量 conv3x3,并通过密集连接进行融合,以扩大感受野覆盖范围(最多到 15)。
  • 介绍 Pose Refine Machine (PRM) 作为输出端的注意力模块,通过多路径设计(通道和空间注意力通路)来重新平衡局部/全局表示。
  • PRM 使用全局池化路径(通道维度)和深度卷积 9x9 路径(空间)加上单位路径来计算 f_out = K(f_in) ⊗ (1 + β ⊗ α)。
  • 在 COCO 和 MPII 上训练评估 RSN+PRM,并与 ResNet、Res2Net、DenseNet 基线以及 HRNet 家族进行比较。
  • 显示 RSN 在相近 GFLOPs 下比基线具有更好性能,并提供高效、准确的关键点定位。

实验结果

研究问题

  • RQ1是否在同一分辨率内的同层融合能够提升精细的局部表示,从而改进关键点定位?
  • RQ2基于注意力的重加权(PRM)是否能够适当地权衡局部与全局特征,以提升姿态估计精度?
  • RQ3就准确性、效率和定位质量而言,RSN 与 DenseNet、Res2Net、OSNet 在 COCO 和 MPII 上的比较如何?
  • RQ4PRM 是否在单阶段和多阶段架构中均有益处,且在替换如 SE-CBAM 的标准注意力模块时也有效?
  • RQ5在姿态估计任务中,RSN 相对于 HRNet 在 CPU/GPU 上的性能与速度权衡如何?

主要发现

骨干网络输入尺寸APΔGFLOPs
ResNet-18256 × 19270.702.3
Res2Net-18256 × 19271.3+0.62.2
Baseline1-18256 × 19272.9+2.12.5
Baseline2-18256 × 19272.1+1.42.5
RSN-18256 × 19273.6+2.92.5
ResNet-50256 × 19272.204.6
Res2Net-50256 × 19272.8+0.64.5
Baseline1-50256 × 19273.7+1.56.4
Baseline2-50256 × 19272.7+0.56.4
RSN-50256 × 19274.7+2.56.4
ResNet-101256 × 19273.207.5
Res2Net-101256 × 19273.9+0.77.5
RSN-101256 × 19275.8+2.511.5
4 × ResNet-50256 × 19276.8020.6
4 × Res2Net-50256 × 19277.0+0.220.1
4 × RSN-50256 × 19278.6+1.827.5
4 × RSN-50384 × 28879.2+1.761.9
  • RSN 在相近 GFLOPs 下持续优于 ResNet 和 Res2Net 的 AP(例如 RSN-18 相对 ResNet-18 提升 2.9 AP,RSN-50 相对 ResNet-50 提升 2.5 AP)。
  • RSN 保持高效,并在模型容量增大时超过 DenseNet 和 Res2Net,保持更高的 AP 在更大 GFLOPs。
  • PRM 提升单阶段和多阶段网络,相对于无注意力基线带来 AP 增益(例如 ResNet-18 + PRM 提高 1.5 AP)。
  • 在 COCO test-dev 上,RSN-50 4x RSN-50 达到 78.0 AP(单模型),以及 RSN-50 集成在 384x288 输入上达到 79.2 AP,无预训练骨干。
  • 在 MPII,RSN 获得 93.0% PCKh@0.5 的平均值,4x RSN-50。
  • RSN 相对于 HRNet 在推理速度上更快,在 GPU 上实现更高的帧率,在 CPU 性能更好。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。