QUICK REVIEW

[论文解读] Human Pose Regression by Combining Indirect Part Detection and Contextual Information

Diogo Luvizon, Hedi Tabia|arXiv (Cornell University)|Oct 6, 2017

Human Pose and Action Recognition参考文献 46被引用 235

一句话总结

一项使用可微分的 Soft-argmax 将热图转换为关节坐标、并辅以上下文信息的端到端可训练姿态回归方法，在回归方法中取得有竞争力的结果，且接近基于检测的方法。

ABSTRACT

In this paper, we propose an end-to-end trainable regression approach for human pose estimation from still images. We use the proposed Soft-argmax function to convert feature maps directly to joint coordinates, resulting in a fully differentiable framework. Our method is able to learn heat maps representations indirectly, without additional steps of artificial ground truth generation. Consequently, contextual information can be included to the pose predictions in a seamless way. We evaluated our method on two very challenging datasets, the Leeds Sports Poses (LSP) and the MPII Human Pose datasets, reaching the best performance among all the existing regression methods and comparable results to the state-of-the-art detection based approaches.

研究动机与目标

推动在二维人体姿态估计中弥合回归与检测之间的差距。
提出一个可微分的 Soft-argmax 层，直接从热图回归二维关节坐标。
结合基于部位的热图与上下文热图以提高姿态预测。
实现端到端训练，在训练阶段无需人工生成的热图。
在标准基准上展示对检测方法具有竞争力的准确性。

提出的方法

引入一个包含 Stem、Block-A 和 Block-B 的 CNN 架构，产生基于部位的热图和上下文热图。
使用 Soft-argmax 将热图转换为关节坐标，且全程可微分。
通过对每个热图的全局最大池化结果应用 sigmoid 来预测关节存在概率。
通过受关节-上下文概率控制的加权方案聚合基于部位的预测和上下文派生的预测。
使用弹性网损失对关节坐标进行训练，并对关节存在概率使用二分类交叉熵损失。
采用数据增强，在 MPII 上训练并对 LSP 进行微调，使用多个预测块进行中间监督。

实验结果

研究问题

RQ1可微分的 Soft-argmax 是否能够实现从 RGB 图像到二维关节坐标的端到端训练，而无需人工生成的热图地面真相？
RQ2在部位热图之外加入上下文热图是否能提升基于回归的姿态估计性能？
RQ3在如 MPII 和 LSP 这样的具有挑战性的基准上，回归方法能达到多接近最先进的基于检测的方法？
RQ4中间监督和多块预测对训练稳定性和准确性有何影响？
RQ5将关节概率作为关节可见性的学习指示器在提升姿态估计的效果如何？

主要发现

在 MPII 上实现接近最先进检测方法的回归姿态精度，并超越其他回归方法。
Soft-argmax 提供亚像素级精度与可微性，使端到端学习成为可能。
上下文映射和关节概率提升姿态精度，特别是通过上下文聚合。
在 LSP 的 OC 注释下，在 PCK 和 PCP 指标上超越若干基于回归的方法。
在 MPII 上，达到 91.2% 的测试分数（Single Person 挑战），仅比最佳基于检测的方法低 0.7%。
该模型使用的网络较小，性能可与更大型的架构相媲美。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。