Skip to main content
QUICK REVIEW

[论文解读] Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation

Zhongwei Qiu, Qiansheng Yang|arXiv (Cornell University)|Jun 29, 2023
Human Pose and Action Recognition被引用 8
一句话总结

DiffusionPose 将 2D 人体姿态估计视为通过扩散模型在有噪声热图上生成热图,受图像结构引导,在 COCO、CrowdPose 与 AI Challenge 上实现了更高的 AP。

ABSTRACT

One of the mainstream schemes for 2D human pose estimation (HPE) is learning keypoints heatmaps by a neural network. Existing methods typically improve the quality of heatmaps by customized architectures, such as high-resolution representation and vision Transformers. In this paper, we propose extbf{DiffusionPose}, a new scheme that formulates 2D HPE as a keypoints heatmaps generation problem from noised heatmaps. During training, the keypoints are diffused to random distribution by adding noises and the diffusion model learns to recover ground-truth heatmaps from noised heatmaps with respect to conditions constructed by image feature. During inference, the diffusion model generates heatmaps from initialized heatmaps in a progressive denoising way. Moreover, we further explore improving the performance of DiffusionPose with conditions from human structural information. Extensive experiments show the prowess of our DiffusionPose, with improvements of 1.6, 1.2, and 1.2 mAP on widely-used COCO, CrowdPose, and AI Challenge datasets, respectively.

研究动机与目标

  • 通过扩散模型来提升 2D HPE 的热图质量,而不仅仅是通过架构改进。
  • 将 2D 姿态估计表述为从嘈杂热图中生成热图的任务。
  • 将人体结构信息作为条件纳入,以引导基于扩散的热图恢复。
  • 在 COCO、CrowdPose 与 AI Challenge 数据集上证明其有效性。

提出的方法

  • 将 2D HPE 表述为一个以图像特征为条件的去噪热图的扩散过程。
  • 使用前向扩散过程将真实关键点扰动成嘈杂热图和掩码。
  • 通过编码器提取图像特征和结构线索,并对关键点/骨架进行掩蔽,形成条件 x^c。
  • 应用结构引导扩散解码器(SGDD)及基于跨注意力的 SC-CA 模块来恢复热图。
  • 可选在高分辨率热图下工作以降低量化误差;以热图上的 L2 损失进行训练。
  • 推理阶段从初始化的热图开始,进行逐步去噪的 DDIM 想法式步骤。

实验结果

研究问题

  • RQ1与判别基线相比,扩散模型是否能够生成更高质量的二维 HPE 热图?
  • RQ2引入显式的人体结构信息作为条件是否能提高姿态估计性能?
  • RQ3热图分辨率与扩散超参数如何影响准确性和计算成本?

主要发现

  • DiffusionPose 相较于相应基线,在 COCO 上提升了 1.6 AP,在 CrowdPose 上提升了 1.2 AP,在 AI Challenge 上提升了 1.2 AP。
  • 引入结构引导条件(SC-CA)和骨架/关键点掩码,相较仅使用图像特征,AP 有所提升。
  • 更高分辨率的 SGDD(如 128x96 热图)提升性能,但伴随 FLOPs 的权衡。
  • 对于扩散使用良好的初始化(一步推断)可在较低计算成本下实现强 AP。
  • DiffusionPose 在多种骨架(如 HRNet 变体)下,在 COCO、CrowdPose 与 AI Challenge 数据集上达到具有竞争力或最先进的结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。