Skip to main content
QUICK REVIEW

[论文解读] Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation

Yu Chen, Chunhua Shen|arXiv (Cornell University)|Apr 30, 2017
Human Pose and Action Recognition参考文献 32被引用 60
一句话总结

引入 Adversarial PoseNet,一种结构感知的 GAN 框架,具备多任务生成器和两个判别器以强化人体先验,在遮挡和混乱场景中提升姿态估计。它在 LSP 和 MPII 上达到最新方法的结果。

ABSTRACT

For human pose estimation in monocular images, joint occlusions and overlapping upon human bodies often result in deviated pose predictions. Under these circumstances, biologically implausible pose predictions may be produced. In contrast, human vision is able to predict poses by exploiting geometric constraints of joint inter-connectivity. To address the problem by incorporating priors about the structure of human bodies, we propose a novel structure-aware convolutional network to implicitly take such priors into account during training of the deep network. Explicit learning of such constraints is typically challenging. Instead, we design discriminators to distinguish the real poses from the fake ones (such as biologically implausible ones). If the pose generator (G) generates results that the discriminator fails to distinguish from real ones, the network successfully learns the priors.

研究动机与目标

  • 将人体结构的几何先验纳入姿态估计,以在遮挡和混乱情况下减少不合理预测。
  • 通过对抗训练隐式学习先验,而非显式约束建模。
  • 开发一个堆叠式多任务生成器,预测姿态热图和遮挡热图,以增强鲁棒性。
  • 使用姿态判别器和置信判别器来强制预测的合理性和置信度。
  • 在公开姿态数据集上展示对现有方法的改进。

提出的方法

  • 一个多任务生成网络 G 以 RGB 输入输出姿态热图和遮挡热图。
  • 一个姿态判别器 P 分析预测姿态在几何上是否合理,结合局部与全局信息。
  • 一个置信判别器 C 评估预测热图的置信度。
  • 训练遵循一个条件 GAN 框架,带 L2 监督项,优化 L_G 相对于 G,以及来自 P 和 C 的对抗项 L = arg min_G max_{P,C} L_G + alpha L_C + beta L_P.
  • G 通过堆叠以允许重新评估预测,使用带跳连接的编码-解码器和残差块。
  • P 和 C 的真实/伪标签的设定反映接近真实值的程度以及置信度,对姿态部位设定阈值化的伪标签。

实验结果

研究问题

  • RQ1一个结构感知的、基于 GAN 的框架是否能够在遮挡和跨人遮挡情况下提升姿态估计的合理性?
  • RQ2通过多任务生成器整合遮挡信息是否能提升姿态准确性和置信度?
  • RQ3姿态判别器和置信判别器是否共同加强生物学姿态先验和鲁棒的热图预测?

主要发现

  • 在 LSP 上,该方法达到 93.1% mean PCK@0.2,优于现有方法在所有关节。
  • 在 MPII,达到 92.1% mean PCKh@0.5,对手腕和踝部有显著提升(例如手腕 88.6 vs 84.x 基线)。
  • 消融显示将多任务生成与两个判别器结合可获得最大的准确性提升(在 MPII 的 mean PCKh 高达 1.5%)。
  • 该方法在遮挡下产生更合理的姿态,具有更高的热图置信度和更清晰的高斯中心预测。
  • 定性结果显示相比强力的 Hourglass 基线,降低了不合理姿态的发生,并更好地处理遮挡或扭曲的肢体。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。