[论文解读] Multi-Context Attention for Human Pose Estimation
一个基于CNN的框架,结合多上下文注意力和hourglass残差单元,通过在嵌套的hourglass网络中使用全局/整体与局部注意力并通过CRFs建模,在MPII和LSP数据集上提升人体姿态估计。
In this paper, we propose to incorporate convolutional neural networks with a multi-context attention mechanism into an end-to-end framework for human pose estimation. We adopt stacked hourglass networks to generate attention maps from features at multiple resolutions with various semantics. The Conditional Random Field (CRF) is utilized to model the correlations among neighboring regions in the attention map. We further combine the holistic attention model, which focuses on the global consistency of the full human body, and the body part attention model, which focuses on the detailed description for different body parts. Hence our model has the ability to focus on different granularity from local salient regions to global semantic-consistent spaces. Additionally, we design novel Hourglass Residual Units (HRUs) to increase the receptive field of the network. These units are extensions of residual units with a side branch incorporating filters with larger receptive fields, hence features with various scales are learned and combined within the HRUs. The effectiveness of the proposed multi-context attention mechanism and the hourglass residual units is evaluated on two widely used human pose estimation benchmarks. Our approach outperforms all existing methods on both benchmarks over all the body parts.
研究动机与目标
- 在遮挡和混乱场景中,通过利用图像相关的多上下文表示,推动健壮的人体姿态估计。
- 提出一种多上下文注意力机制(多分辨率、多语义、分层整体-部位)来引导特征学习。
- 引入 Hourglass Residual Units (HRUs) 以在保持细节的同时扩大感受野,支持嵌套的 hourglass 网络。
- Demonstrate end-to-end trainable architecture that outperforms state-of-the-art methods on MPII and LSP.
提出的方法
- 在每个 hourglass 堆栈中从不同尺度的特征生成多分辨率的注意力图。
- 用 Hourglass Residual Units 替换标准残差单元,其中包含一个 hourglass 分支以增加感受野(HRU 公式: x_{n+1}=x_n+F(x_n;W^F_n)+P(x_n;W^P_n))。
- 通过可微分的 CRFs 使用平均场近似来建模相邻位置之间的空间相关性。
- 在 hourglass 堆栈之间实施多语义注意力,以捕捉局部(早期堆栈)和全局(后期堆栈)的身体姿态配置。
- 在更高的堆栈中应用分层的整体到部位注意力,以细化局部部位位置(p-th part attention)。
- 在 MPII 和 LSP 上以标准热图回归损失(MSE)对身体部位进行端到端训练。
实验结果
研究问题
- RQ1CRF 基于的空间注意力模型是否能在_body parts_定位上比传统的 Softmax 注意力更优?
- RQ2多上下文注意力(多分辨率、多语义、分层整体-部位)是否提升对遮挡和背景混乱的鲁棒性?
- RQ3Hourglass Residual Units 是否有效扩展感受野以改善部位定位,同时不牺牲细节?
- RQ4是否存在一个端到端可训练的嵌套 hourglass 架构,结合多上下文注意力,在 MPII 和 LSP 上优于以往的姿态估计方法?
- RQ5整体注意力与部位聚焦的注意力组件如何对单个部位的定位准确度产生贡献?
主要发现
| 方法 | 头部 | 肩 | 肘 | 腕 | 髋 | 膝 | 踝 | 平均值 |
|---|---|---|---|---|---|---|---|---|
| Ours (MPII) | 98.5 | 96.3 | 91.9 | 88.1 | 90.6 | 88.0 | 85.0 | 91.5 |
| Prior Best (MPII) | 98.2 | 96.3 | 91.2 | 87.1 | 90.1 | 87.4 | 83.6 | 90.9 |
| Ours (LSP) | 98.1 | 93.7 | 89.3 | 86.9 | 93.4 | 94.0 | 92.5 | 92.6 |
- 在 MPII 上达到最先进的 PCKh@0.5,平均为 91.5%(跨部位均值)。
- 在 MPII 上,该方法在具有挑战性的关节(手腕、脚踝)上分别比最近的方法提高 1.0% 和 1.4%。
- 在 LSP 上达到最先进的 PCK@0.2,平均提升 1.9%。
- 基于 CRF 的注意力收敛更快,验证精度高于 Softmax 注意力。
- 分层部位注意力进一步将平均 PCKh 提高到 89.4%,在左右肢体区分和双计数减少方面表现更好。
- 与多分辨率和多语义注意力结合时,HRUs 额外带来约 1% 的增益。
- 总体而言,多上下文注意力和 HRU 框架在遮挡和复杂背景下表现出鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。