[论文解读] Human Pose Estimation with Spatial Contextual Information
本文提出 Cascade Prediction Fusion (CPF) 与 Pose Graph Neural Network (PGNN),利用空间上下文信息进行人体姿态估计,在 MPII 和 LSP 数据集上以极低额外计算量达到最先进的结果。
We explore the importance of spatial contextual information in human pose estimation. Most state-of-the-art pose networks are trained in a multi-stage manner and produce several auxiliary predictions for deep supervision. With this principle, we present two conceptually simple and yet computational efficient modules, namely Cascade Prediction Fusion (CPF) and Pose Graph Neural Network (PGNN), to exploit underlying contextual information. Cascade prediction fusion accumulates prediction maps from previous stages to extract informative signals. The resulting maps also function as a prior to guide prediction at following stages. To promote spatial correlation among joints, our PGNN learns a structured representation of human pose as a graph. Direct message passing between different joints is enabled and spatial relation is captured. These two modules require very limited computational complexity. Experimental results demonstrate that our method consistently outperforms previous methods on MPII and LSP benchmark.
研究动机与目标
- 阐明人体姿态估计中空间上下文信息的重要性。
- 提出轻量级模块以利用辅助阶段预测和关节关系。
- 展示 CPF 和 PGNN 在常见姿态网络中的端到端可训练性。
- 在 MPII 和 LSP 上展示在有限计算开销下的精度提升。
提出的方法
- Cascade Prediction Fusion (CPF):逐步将早期阶段的辅助预测作为先验融合,以指导后续阶段的预测。
- PGNN (Pose Graph Neural Network):将关节建模为图节点,使用基于边的消息传递来捕捉空间关系。
- 图结构构建:关节作为节点;边编码相邻关节关系;支持树形和环路图结构。
- 更新机制:使用门控式的 GRU-like 更新并行更新节点(无共享边权重);将新消息与记忆相结合。
- 训练:通过对预测的映射使用 L2 损失实现端到端训练;为时间扩展风险使用 BPTT,强调学习空间结构。
- 主干网络兼容性:将 CPF 和 PGNN 应用于 ResNet-50(经 FPN 和膨胀卷积改造)和 Hourglass 主干网络。
实验结果
研究问题
- RQ1通过 CPF 融入空间上下文信息如何在姿态估计各阶段提高细化效果?
- RQ2图基神经网络(PGNN)是否能够有效建模并传播关节之间的空间关系以提升定位?
- RQ3CPF 和 PGNN 是否在 MPII 和 LSP 的不同主干网络上提供一致的性能提升?
主要发现
- CPF 通过利用先前阶段的预测来指导后续阶段的预测,带来可测量的改进。
- PGNN 通过实现关节之间的直接消息传递并学习结构化的空间关系,带来额外的提升。
- CPF 与 PGNN 的组合在 MPII(PCKh@0.5)上实现了新的 state-of-the-art,并在 LSP 上取得具有竞争力的结果,且参数量和 FLOP 负载很低。
- 树状与环状 PGNN 结构带来类似的改进,表明对图拓扑具有鲁棒性。
- 传播步数在较小的步数(T≈3)后收益递减,前两步对准确度贡献最大。
- 主干网络实验表明 ResNet-50 和 Hourglass 都从 CPF 和 PGNN 获益,Hourglass 在 MPII 达到 92.5% PCKh。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。