Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation

Yu Chen, Chunhua Shen|arXiv (Cornell University)|2017. 04. 30.
Human Pose and Action Recognition참고 문헌 32인용 수 60
한 줄 요약

Adversarial PoseNet을 도입하는 구조 인식 GAN 프레임워크로, 다중 태스크 생성기와 두 판별기로 인간 신체 priors를 강제하여 가려짐과 혼잡 속에서 자세 추정이 향상됩니다. LSP와 MPII에서 최첨단 결과를 달성합니다.

ABSTRACT

For human pose estimation in monocular images, joint occlusions and overlapping upon human bodies often result in deviated pose predictions. Under these circumstances, biologically implausible pose predictions may be produced. In contrast, human vision is able to predict poses by exploiting geometric constraints of joint inter-connectivity. To address the problem by incorporating priors about the structure of human bodies, we propose a novel structure-aware convolutional network to implicitly take such priors into account during training of the deep network. Explicit learning of such constraints is typically challenging. Instead, we design discriminators to distinguish the real poses from the fake ones (such as biologically implausible ones). If the pose generator (G) generates results that the discriminator fails to distinguish from real ones, the network successfully learns the priors.

연구 동기 및 목표

  • 인체 구조의 기하학적 priors를 자세 추정에 통합하여 가려짐과 혼잡에서 불합리한 예측을 줄이고자 한다.
  • 명시적 제약 모델링이 아닌 적대적 학습을 통해 priors를 암묵적으로 학습한다.
  • 로 robustness를 높이기 위해 자세 heatmap과 가려짐 맵을 예측하는 스택형 다중 태스크 생성기를 개발한다.
  • 자세 판별기와 신뢰도 판별기를 사용해 타당성 및 예측 신뢰도를 강제한다.
  • 공개 포즈 데이터 세트에서 최신 방법 대비 개선을 입증한다.

제안 방법

  • RGB 입력에서 자세 heatmap과 가려짐 heatmap을 출력하는 다중 태스크 생성 네트워크 G.
  • 정의된 로컬 및 글로벌 정보를 사용해 예측된 자세의 기하학적 타당성을 분석하는 자세 판별기 P.
  • 예측Heatmap의 신뢰도를 평가하는 신뢰도 판별기 C.
  • L2 감독 용어를 포함한 조건부 GAN 프레임워크에서 L_G를 G에 대해 최적화하고 L_G + alpha L_C + beta L_P를 L = arg min_G max_{P,C}로 설정.
  • G는 재평가를 가능하게 하기 위해 인코더-디코더와 스킵 연결 및 잔차 블록을 사용하는 구조를 중첩하여 구성한다.
  • P 및 C에 대한 실제/가짜 레이블은 지표를 Ground Truth와의 근접도 및 신뢰도 반영하도록 정의하고, 자세 부위에 대해 임계값 기반의 가짜 라벨을 사용한다.

실험 결과

연구 질문

  • RQ1구조 인식 GAN 기반 프레임워크가 가려짐과 사람 간 가려짐(I)을 포함한 상황에서 자세 추정의 타당성을 개선할 수 있는가?
  • RQ2다중 태스크 생성기를 통해 가려짐 정보를 포함시키는 것이 자세 정확도와 신뢰도에 기여하는가?
  • RQ3자세(discriminator)와 신뢰도(discriminator)가 생물학적 자세 priors와 강건한 히트맵 예측을 함께 강제하는가?

주요 결과

방법머리어깨팔꿈치손목엉덩이무릎발목평균
당사98.594.089.887.593.994.193.093.1
  • LSP에서 방법이 평균 PCK@0.2 93.1%를 달성하여 모든 관절에서 이전 방법을 능가했습니다.
  • MPII에서 방법이 평균 PCKh@0.5 92.1%를 달성했고 손목과 발목에서 특히 향상(예: 손목 88.6대 84.x 대조군)되었습니다.
  • 다중 태스크 생성과 두 판별기를 함께 사용하는 차단 실험에서 가장 큰 정확도 향상이 나타났으며, MPII의 평균 PCKh에서 최대 1.5%의 이득이 가능합니다.
  • 가려짐하에서 더 타당한 자세를 생성하고, 더 높은 신뢰도 히트맵과 더 명확한 가우시안 중심 예측을 제공합니다.
  • 정성적 결과에서 강력한 Hourglass 기준선과 비교해 타당하지 않은 자세가 줄고, 가려지거나 뒤틀린 사지를 더 잘 처리하는 것을 확인했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.