QUICK REVIEW

[论文解读] Learning Delicate Local Representations for Multi-Person Pose Estimation

Yuanhao Cai, Zhicheng Wang|arXiv (Cornell University)|Mar 9, 2020

Human Pose and Action Recognition参考文献 32被引用 37

一句话总结

论文提出 Residual Steps Network (RSN) 用于高效同层特征融合以学习精细的局部表示，以及 Pose Refine Machine (PRM) 来平衡局部/全局输出特征，在 COCO 和 MPII 上无需额外数据就达到最先进结果。

ABSTRACT

In this paper, we propose a novel method called Residual Steps Network (RSN). RSN aggregates features with the same spatial size (Intra-level features) efficiently to obtain delicate local representations, which retain rich low-level spatial information and result in precise keypoint localization. Additionally, we observe the output features contribute differently to final performance. To tackle this problem, we propose an efficient attention mechanism - Pose Refine Machine (PRM) to make a trade-off between local and global representations in output features and further refine the keypoint locations. Our approach won the 1st place of COCO Keypoint Challenge 2019 and achieves state-of-the-art results on both COCO and MPII benchmarks, without using extra training data and pretrained model. Our single model achieves 78.6 on COCO test-dev, 93.0 on MPII test dataset. Ensembled models achieve 79.2 on COCO test-dev, 77.1 on COCO test-challenge dataset. The source code is publicly available for further research at https://github.com/caiyuanhao1998/RSN/

研究动机与目标

Motivation: 提高关键点定位，通过在同一特征层内保留细腻的局部空间信息。
Goal: 提出同层级特征融合，以学习更丰富的局部表示用于多人姿态估计。
Aim: 设计一个输出特征重加权机制（PRM），以平衡局部与全局线索，从而提高关键点准确性。
Demonstrate that RSN+PRM achieves state-of-the-art results on COCO and MPII without extra data or pretrained models.

提出的方法

提出 Residual Steps Network (RSN) 以在 Residual Steps Blocks (RSB) 内通过密集逐元素求和融合同层级特征。
RSB 将特征分成四个分支，应用 conv1x1 和增量 conv3x3，并通过密集连接进行融合，以扩大感受野覆盖范围（最多到 15）。
介绍 Pose Refine Machine (PRM) 作为输出端的注意力模块，通过多路径设计（通道和空间注意力通路）来重新平衡局部/全局表示。
PRM 使用全局池化路径（通道维度）和深度卷积 9x9 路径（空间）加上单位路径来计算 f_out = K(f_in) ⊗ (1 + β ⊗ α)。
在 COCO 和 MPII 上训练评估 RSN+PRM，并与 ResNet、Res2Net、DenseNet 基线以及 HRNet 家族进行比较。
显示 RSN 在相近 GFLOPs 下比基线具有更好性能，并提供高效、准确的关键点定位。

实验结果

研究问题

RQ1是否在同一分辨率内的同层融合能够提升精细的局部表示，从而改进关键点定位？
RQ2基于注意力的重加权（PRM）是否能够适当地权衡局部与全局特征，以提升姿态估计精度？
RQ3就准确性、效率和定位质量而言，RSN 与 DenseNet、Res2Net、OSNet 在 COCO 和 MPII 上的比较如何？
RQ4PRM 是否在单阶段和多阶段架构中均有益处，且在替换如 SE-CBAM 的标准注意力模块时也有效？
RQ5在姿态估计任务中，RSN 相对于 HRNet 在 CPU/GPU 上的性能与速度权衡如何？

主要发现

骨干网络	输入尺寸	AP	Δ	GFLOPs
ResNet-18	256 × 192	70.7	0	2.3
Res2Net-18	256 × 192	71.3	+0.6	2.2
Baseline1-18	256 × 192	72.9	+2.1	2.5
Baseline2-18	256 × 192	72.1	+1.4	2.5
RSN-18	256 × 192	73.6	+2.9	2.5
ResNet-50	256 × 192	72.2	0	4.6
Res2Net-50	256 × 192	72.8	+0.6	4.5
Baseline1-50	256 × 192	73.7	+1.5	6.4
Baseline2-50	256 × 192	72.7	+0.5	6.4
RSN-50	256 × 192	74.7	+2.5	6.4
ResNet-101	256 × 192	73.2	0	7.5
Res2Net-101	256 × 192	73.9	+0.7	7.5
RSN-101	256 × 192	75.8	+2.5	11.5
4 × ResNet-50	256 × 192	76.8	0	20.6
4 × Res2Net-50	256 × 192	77.0	+0.2	20.1
4 × RSN-50	256 × 192	78.6	+1.8	27.5
4 × RSN-50	384 × 288	79.2	+1.7	61.9

RSN 在相近 GFLOPs 下持续优于 ResNet 和 Res2Net 的 AP（例如 RSN-18 相对 ResNet-18 提升 2.9 AP，RSN-50 相对 ResNet-50 提升 2.5 AP）。
RSN 保持高效，并在模型容量增大时超过 DenseNet 和 Res2Net，保持更高的 AP 在更大 GFLOPs。
PRM 提升单阶段和多阶段网络，相对于无注意力基线带来 AP 增益（例如 ResNet-18 + PRM 提高 1.5 AP）。
在 COCO test-dev 上，RSN-50 4x RSN-50 达到 78.0 AP（单模型），以及 RSN-50 集成在 384x288 输入上达到 79.2 AP，无预训练骨干。
在 MPII，RSN 获得 93.0% PCKh@0.5 的平均值，4x RSN-50。
RSN 相对于 HRNet 在推理速度上更快，在 GPU 上实现更高的帧率，在 CPU 性能更好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。