Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation

Zhongwei Qiu, Qiansheng Yang|arXiv (Cornell University)|2023. 06. 29.
Human Pose and Action Recognition인용 수 8
한 줄 요약

DiffusionPose는 이미지 구조에 의해 안내되는 확산 모델을 통해 노이즈가 있는 히트맵으로부터 히트맵을 생성하는 방식으로 2D 인간 포즈 추정을 다루며, COCO, CrowdPose, AI Challenge에서 AP를 향상시킵니다.

ABSTRACT

One of the mainstream schemes for 2D human pose estimation (HPE) is learning keypoints heatmaps by a neural network. Existing methods typically improve the quality of heatmaps by customized architectures, such as high-resolution representation and vision Transformers. In this paper, we propose extbf{DiffusionPose}, a new scheme that formulates 2D HPE as a keypoints heatmaps generation problem from noised heatmaps. During training, the keypoints are diffused to random distribution by adding noises and the diffusion model learns to recover ground-truth heatmaps from noised heatmaps with respect to conditions constructed by image feature. During inference, the diffusion model generates heatmaps from initialized heatmaps in a progressive denoising way. Moreover, we further explore improving the performance of DiffusionPose with conditions from human structural information. Extensive experiments show the prowess of our DiffusionPose, with improvements of 1.6, 1.2, and 1.2 mAP on widely-used COCO, CrowdPose, and AI Challenge datasets, respectively.

연구 동기 및 목표

  • 확산 모델을 사용해 2D HPE 히트맵 품질을 아키텍처 개선을 넘어 향상시키려는 동기.
  • 노이즈가 있는 히트맵에서 생성적 히트맵 복원 작업으로 2D 포즈 추정을 형식화합니다.
  • 인간 구조 정보를 조건으로 도입해 확산 기반 히트맵 복구를 가이드합니다.
  • COCO, CrowdPose, AI Challenge 데이터셋 전반에서 효과를 시연합니다.

제안 방법

  • 이미지 특징에 조건화된 히트맵의 노이즈 제거 확산 프로세스로 2D HPE를 확산 프로세스로 형식화합니다.
  • 전방 확산 과정을 사용하여 실제 키포인트를 노이즈 히트맵과 마스크로 교란합니다.
  • 인코더를 통해 이미지 특징과 구조적 신호를 추출하고 키포인트/스켈레톤 마스킹으로 x^c 조건을 형성합니다.
  • Structure-Guided Diffusion Decoder(SGDD)에 크로스-어텐션 기반 SC-CA 모듈을 적용하여 히트맵을 복구합니다.
  • 양자화 오차를 줄이기 위해 고해상도 히트맵에서 작동할 수 있으며 히트맵의 L2 손실로 학습합니다.
  • 추론 시 초기화된 히트맵에서 시작하여 DDIM에서 영감을 받은 단계들로 점진적으로 노이즈 제거를 수행합니다.

실험 결과

연구 질문

  • RQ1확산 모델이 식별 가능한 baselines보다 2D HPE에 대해 더 높은 품질의 히트맵을 생성할 수 있나요?
  • RQ2인간 구조 정보를 조건으로 명시적으로 도입하는 것이 포즈 추정 성능을 향상시키나요?
  • RQ3히트맵 해상도와 확산 하이퍼파라미터가 정확도와 계산 비용에 어떤 영향을 미치나요?

주요 결과

  • DiffusionPose는 COCO에서 AP를 1.6 AP, CrowdPose에서 1.2 AP, AI Challenge에서 1.2 AP 향상을 달성합니다.
  • 구조-가이던스 조건화(SC-CA) 및 골격/키포인트 마스크를 사용하면 이미지 특징만 사용할 때보다 AP가 증가합니다.
  • 고해상도 SGDD(예: 128x96 히트맵)가 성능을 향상시키며 FLOPs와의 트레이드오프가 존재합니다.
  • 확산에 대한 좋은 초기화(한 단계 추론)를 사용하면 낮은 계산 비용으로 강한 AP를 달성합니다.
  • DiffusionPose는 HRNet 계열 등 다양한 백본에서 COCO, CrowdPose, AI Challenge 데이터셋에 경쟁력 있거나 최첨단 결과를 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.