Skip to main content
QUICK REVIEW

[논문 리뷰] Cascaded Pyramid Network for Multi-Person Pose Estimation

Yilun Chen, Zhicheng Wang|arXiv (Cornell University)|2017. 11. 20.
Human Pose and Action Recognition참고 문헌 7인용 수 127
한 줄 요약

이 논문은 다중 인체 자세 추정에서 어려운 키포인트를 해결하기 위해 GlobalNet과 RefineNet을 갖춘 Cascaded Pyramid Network (CPN)을 제안하고 COCO minival에서 69.4 AP, COCO test-dev에서 72.1 AP(당시 최첨단) 달성.

ABSTRACT

The topic of multi-person pose estimation has been largely improved recently, especially with the development of convolutional neural network. However, there still exist a lot of challenging cases, such as occluded keypoints, invisible keypoints and complex background, which cannot be well addressed. In this paper, we present a novel network structure called Cascaded Pyramid Network (CPN) which targets to relieve the problem from these "hard" keypoints. More specifically, our algorithm includes two stages: GlobalNet and RefineNet. GlobalNet is a feature pyramid network which can successfully localize the "simple" keypoints like eyes and hands but may fail to precisely recognize the occluded or invisible keypoints. Our RefineNet tries explicitly handling the "hard" keypoints by integrating all levels of feature representations from the GlobalNet together with an online hard keypoint mining loss. In general, to address the multi-person pose estimation problem, a top-down pipeline is adopted to first generate a set of human bounding boxes based on a detector, followed by our CPN for keypoint localization in each human bounding box. Based on the proposed algorithm, we achieve state-of-art results on the COCO keypoint benchmark, with average precision at 73.0 on the COCO test-dev dataset and 72.1 on the COCO test-challenge dataset, which is a 19% relative improvement compared with 60.5 from the COCO 2016 keypoint challenge.Code (https://github.com/chenyilun95/tf-cpn.git) and the detection results are publicly available for further research.

연구 동기 및 목표

  • 다중 인체 자세 추정에서 어려운(가려지거나 보이지 않는) 키포인트의 위치 지정을 개선하도록 동기를 부여합니다.
  • 강력한 키포인트 히트맷을 위한 피라미드 특징을 통합하는 cascaded 아키텍처를 제안합니다.
  • 온라인 하드 키포인트 마이닝을 도입해 학습을 어려운 관절에 집중합니다.
  • 성능에 대한 detector 선택, 데이터 전처리, 입력 크롭 전략의 영향을 평가합니다.

제안 방법

  • GlobalNet과 RefineNet으로 구성된 Cascaded Pyramid Network (CPN)을 도입합니다.
  • GlobalNet은 특징 피라미드 구조를 사용해 쉬운 키포인트를 높은 해상도와 풍부한 컨텍스트로 로컬라이즈합니다.
  • RefineNet은 피라미드 특징을 연결하고 온라인 하드 키포인트 마이닝을 적용해 어려운 키포인트에 집중합니다.
  • GlobalNet에 대해 L2 손실, RefineNet에 대해 온라인 하드 키포인트 마이닝 손실로 학습합니다.
  • 탑-다운 파이프라인을 채택합니다: 탐지자 기반의 인간 박스 후 CPN을 사용한 각 박스별 키포인트 로컬라이제이션.

실험 결과

연구 질문

  • RQ1다중 인체 자세 추정에서 가려지거나 보이지 않는 키포인트의 위치 지정을 cascaded pyramid 접근 방식으로 개선할 수 있습니까?
  • RQ2RefineNet에서 다중 레벨 피라미드 특징을 통합하면 과도한 계산 없이 어려운 키포인트 정확도를 개선합니까?
  • RQ3온라인 하드 키포인트 마이닝이 자세 추정 정확도에 미치는 효과는 무엇입니까?
  • RQ4탐지기의 품질과 데이터 전처리가 COCO에서 최종 키포인트 AP에 어떤 영향을 미칩니까?

주요 결과

  • GlobalNet과 RefineNet으로 구성된 CPN은 ResNet-50 백본을 사용하여 COCO minival에서 69.4 AP (OKS)를 달성합니다.
  • 온라인 하드 키포인트 마이닝을 제공하는 RefineNet은 기본 GlobalNet 대비 약 0.8 AP의 성능 향상을 제공합니다.
  • 입력 자르기 크기와 다중 레벨 피처 융합은 성능에 크게 영향을 미치며, 더 큰 크롭과 여러 피라미드 레벨을 사용할수록 더 높은 AP를 얻습니다.
  • COCO test-dev에서 단일 CPN 모델은 72.1 AP를 달성하고, 앙상블(CPN+)은 COCO를 넘는 추가 데이터 없이 73.0 AP에 도달합니다.
  • 이 방법은 당시 COCO 다인 키포인트에서 최첨단 결과를 설정했으며, 2016년 수상자를 상당한 상대적 격차로 능가했습니다.
  • Soft-NMS와 고급 탐지기 변형은 차등 실험에서 키포인트 탐지 성능을 더 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.