Skip to main content
QUICK REVIEW

[논문 리뷰] HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

Bowen Cheng, Bin Xiao|arXiv (Cornell University)|2019. 08. 27.
Human Pose and Action Recognition참고 문헌 42인용 수 75
한 줄 요약

HigherHRNet는 다중 해상도 감독 및 히트맵 집계를 통해 스케일 인식 고해상도 피처 피라미드를 도입하여 바텀업 다중인원 포즈 추정을 개선하고, COCO test-dev에서 최첨단 결과를 달성했으며 CrowdPose에서도 강력한 성능을 보입니다.

ABSTRACT

Bottom-up human pose estimation methods have difficulties in predicting the correct pose for small persons due to challenges in scale variation. In this paper, we present HigherHRNet: a novel bottom-up human pose estimation method for learning scale-aware representations using high-resolution feature pyramids. Equipped with multi-resolution supervision for training and multi-resolution aggregation for inference, the proposed approach is able to solve the scale variation challenge in bottom-up multi-person pose estimation and localize keypoints more precisely, especially for small person. The feature pyramid in HigherHRNet consists of feature map outputs from HRNet and upsampled higher-resolution outputs through a transposed convolution. HigherHRNet outperforms the previous best bottom-up method by 2.5% AP for medium person on COCO test-dev, showing its effectiveness in handling scale variation. Furthermore, HigherHRNet achieves new state-of-the-art result on COCO test-dev (70.5% AP) without using refinement or other post-processing techniques, surpassing all existing bottom-up methods. HigherHRNet even surpasses all top-down methods on CrowdPose test (67.6% AP), suggesting its robustness in crowded scene. The code and models are available at https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation.

연구 동기 및 목표

  • 작은 인원에 특히 주목하여 바텀업 다중 인원 포즈 추정에서 스케일 변화에 대응한다.
  • 척도 전반에 걸친 공간 세부 정보를 보존하는 고해상도 피처 피라미드를 개발한다.
  • 다중 해상도 감독으로 학습하고 추론 시 다중 해상도 히트맵 집계를 수행한다.
  • COCO에서 키포인트 로컬라이제이션 정확도의 향상과 혼잡한 장면(CrowdPose)에서의 강건함을 입증한다.

제안 방법

  • HRNet을 기반으로 해상도 1/4에서 시작하여 디콘볼루션으로 업샘플링해 더 높은 해상도 히트맵을 생성하는 고해상도 피처 피라미드를 만든다.
  • 피라미드의 각 해상도로 실제 키포인트를 변환하고 각 해상도에서 가우시안 히트맵을 사용하는 다중 해상도 감독을 적용한다.
  • 여러 해상도에서 히트맵을 예측하고 추론 시 이를 집계해 스케일 인식 히트맵을 형성한다.
  • 연관 임베딩을 사용해 키포인트를 그룹화하여 사람 인스턴스를 형성한다.
  • 피처와 히트맵을 정교화하기 위해 디콘볼루션 모듈에 잔차 블록을 선택적으로 추가한다.

실험 결과

연구 질문

  • RQ1스케일 인식 고해상도 피처 피라미드가 바텀업 포즈 추정에서 작은 인원의 키포인트 로컬라이제이션을 개선할 수 있는가?
  • RQ2다중 해상도 감독과 히트맵 집계가 후처리 보정 없이 성능 향상을 가져오는가?
  • RQ3HigherHRNet이 COCO 및 CrowdPose에서 기존의 바텀업 및 탑다운 방법과 비교해 어떤 성능을 보이는가?

주요 결과

  • HigherHRNet은 HRNet 베이스라인 대비 66.4 AP를 달성하고 다중 스케일 테스트에서 COCO2017 test-dev에서 70.5 AP를 달성하여 기존의 바텀업 방식들을 능가한다.
  • 중간 크기의 인원에 대해 HigherHRNet은 대형 인원 대비 APM 개선이 더 커 보이므로 스케일 변화에 더 잘 대응한다는 것을 시사한다.
  • COCO2017 test-dev에서 HigherHRNet-W48은 다중 스케일 테스트를 통해 70.5 AP를 달성하며 개선 없이도 모든 기존 바텀업 방법을 능가한다.
  • CrowdPose 테스트에서 HigherHRNet-W48은 67.6 AP를 달성하며 탑다운 및 기존 바텀업 방법을 상회하고 혼잡한 장면에서의 강건함을 보여준다.
  • 아브레이션 연구는 디콘볼루션, 피처 연결, 히트맵 집계 및 백본 용량 증가가 모두 AP 향상에 기여하며, 일반적으로 한 개의 디콘볼루션 모듈이 COCO 성능 최적에 가장 기여하는 경향이 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.