Skip to main content
QUICK REVIEW

[논문 리뷰] OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

Zhe Cao, Gines Hidalgo|arXiv (Cornell University)|2018. 12. 18.
Human Pose and Action Recognition참고 문헌 69인용 수 673
한 줄 요약

OpenPose는 Part Affinity Fields (PAFs)를 사용해 신체 부위를 연결하는 실시간 바텀업(bottom-up) 2D 다인 포즈 추정 방법을 제시하고, 신체, 발, 손, 얼굴 키포인트용 오픈 소스 라이브러리를 공개한다.

ABSTRACT

Realtime multi-person 2D pose estimation is a key component in enabling machines to have an understanding of people in images and videos. In this work, we present a realtime approach to detect the 2D pose of multiple people in an image. The proposed method uses a nonparametric representation, which we refer to as Part Affinity Fields (PAFs), to learn to associate body parts with individuals in the image. This bottom-up system achieves high accuracy and realtime performance, regardless of the number of people in the image. In previous work, PAFs and body part location estimation were refined simultaneously across training stages. We demonstrate that a PAF-only refinement rather than both PAF and body part location refinement results in a substantial increase in both runtime performance and accuracy. We also present the first combined body and foot keypoint detector, based on an internal annotated foot dataset that we have publicly released. We show that the combined detector not only reduces the inference time compared to running them sequentially, but also maintains the accuracy of each component individually. This work has culminated in the release of OpenPose, the first open-source realtime system for multi-person 2D pose detection, including body, foot, hand, and facial keypoints.

연구 동기 및 목표

  • 정확한 다인 2D 포즈 추정을 통해 이미지와 비디오에서 사람을 실시간으로 이해하는 것을 목표로 한다.
  • 알 수 없는 사람 수, 가림(occlusion), 그리고 사람 수에 따라 런타임 규모가 커지는 문제를 해결한다.
  • 감지와 연합을 결합하기 위한 바텀업 표현으로 Part Affinity Fields (PAFs)를 도입한다.
  • 신체, 발, 손, 얼굴 키포인트를 다루는 오픈 소스 시스템으로 OpenPose를 공개한다.

제안 방법

  • CNN이 신체 부위의 신뢰도 맵과 팔다리 방향을 인코딩하는 PAF를 예측한다.
  • 중간 감독을 갖춘 다단 네트워크가 학습을 향상시키며, PAF 정제가 결정적이지만 신체 부위 정제는 그다지 중요하지 않다.
  • 7x7 컨볼루션을 세 개의 3x3 레이어로 교체하고, 수용영역을 유지하며 속도를 높이기 위해 연결을 촘촘하게(concatenated) 한다( DenseNet과 같은 연결).
  • PAFs에 대해 선적분(line-integral) 사지 점수화와 이분 매칭을 사용하는 그리디 파싱으로 다중 인물의 포즈를 구성한다.
  • 공개 발 데이터 세트를 통해 발 키포인트로 확장하고, 속도나 정확도를 희생하지 않고 바디+발 탐지를 결합하여 시연한다.

실험 결과

연구 질문

  • RQ1Part Affinity Fields가 인물 탐지기에 대한 의존도를 크게 줄이면서도 정확하고 실시간 바텀업 다인 포즈 파싱을 가능하게 할 수 있는가?
  • RQ2PAFs의 정제와 신체 부위 신뢰도 맵의 정제가 다인 간 파싱의 정확도와 속도에 어떻게 영향을 미치는가?
  • RQ3신체 및 발 키포인트 탐지의 결합이 포즈 추정 성능과 효율성을 향상시키는가?
  • RQ4표준 벤치마크에서 런타임과 정확도 측면에서 OpenPose가 기존 방법들(Mask R-CNN, Alpha-Pose 등)과 어떻게 비교되는가?

주요 결과

  • 벤치마크 전반에서 경쟁력 있는 정확도로 실시간 다인 2D 포즈 추정을 달성한다.
  • PAF 정제는 정확도에 결정적이며, 신체 부위 신뢰도 맵의 정제는 덜 유익하다.
  • 네트워크 깊이가 증가했고 더 빠르고 정확한 결과를 보인다(섹션에 보고된 대략 200% 속도 향상 및 ~7% 정확도 향상).
  • 주석이 달린 발 데이터 세트를 도입하고, 바디+발 키포인트 탐지기가 바디 정확도를 유지하면서 추론 시간을 줄이는 것을 보여준다.
  • OpenPose는 신체, 발, 손, 얼굴 키포인트(최대 135개)에서 실시간으로 작동하는 최초의 오픈 소스 시스템이며 GTX 1080 Ti에서 약 22 FPS로 작동한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.