[论文解读] Rethinking on Multi-Stage Networks for Human Pose Estimation
本文重新审视多阶段姿态估计,表明通过更强的单阶段模块、跨阶段特征聚合以及粗到细的监督,MSPN 在 COCO 和 MPII 上达到最新的 SOTA,挑战多阶段设计劣于单阶段的观念。
Existing pose estimation approaches fall into two categories: single-stage and multi-stage methods. While multi-stage methods are seemingly more suited for the task, their performance in current practice is not as good as single-stage methods. This work studies this issue. We argue that the current multi-stage methods' unsatisfactory performance comes from the insufficiency in various design choices. We propose several improvements, including the single-stage module design, cross stage feature aggregation, and coarse-to-fine supervision. The resulting method establishes the new state-of-the-art on both MS COCO and MPII Human Pose dataset, justifying the effectiveness of a multi-stage architecture. The source code is publicly available for further research.
研究动机与目标
- 评估为什么多阶段网络在具有挑战性的姿态数据集上表现不及单阶段网络。
- 设计改进以释放多阶段架构在姿态估计中的潜力。
- 展示经优化的单阶段模块、跨阶段特征融合和粗到细监督的有效性。
- 在 COCO 和 MPII 上评估 MSPN 相对于现有方法的表现并分析各组成部分的贡献。
提出的方法
- 采用两阶段自上而下的框架,以检测到的人框作为输入进入 MSPN。
- 将天真/简单的 Hourglass 风格单阶段模块替换为现代的高容量单阶段模块(CPN 的 GlobalNet),以更好地处理特征。
- 引入跨阶段特征聚合,以在各阶段传播多尺度特征并加强信息流。
- 应用带有阶段特定高斯核尺寸和多个中间尺度的粗到细监督,以逐步改进定位。
- 在每个阶段的最大尺度上结合 online hard key point mining (OHKM),并在各尺度上使用标准的 L2 损失。
实验结果
研究问题
- RQ1经过改进的单阶段模块是否可以提升多阶段姿态网络的性能?
- RQ2跨阶段特征聚合是否降低多阶段架构的信息损失?
- RQ3相比传统多尺度监督,粗到细监督是否能提高关键点定位精度?
- RQ4与现有最先进方法相比,MSPN 在 COCO 和 MPII 的表现如何?
- RQ5MSPN 对检测质量和骨干网络选择的敏感性有多大?
主要发现
- 结合所提出的改进后,MSPN 显著优于以往的多阶段方法,并超过同等容量的单阶段基线。
- 使用基于 ResNet 的 GlobalNet 作为单阶段模块可获得强基线性能,并在与多阶段设计结合时实现更大提升。
- 跨阶段特征聚合带来可衡量的提升(例如 COCO minival 上 MSPN 的 AP 从 74.2 提升到 74.5)。
- 粗到细监督显著提升定位精度,在不同设定下对 MSPN 有显著提升;当应用于相同 FLOPs 预算时也使 Hourglass 受益。
- MSPN 在 COCO test-dev 上达到 SOTA(76.1 AP 单模型;77.1 AP 使用外部数据;78.1 AP 集成),在 MPII 上达到 92.6 PCKh@0.5。
- 检测器质量对 MSPN 的性能影响有限,表明增益主要来自架构设计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。