QUICK REVIEW

[논문 리뷰] HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation

Bowen Cheng, Bin Xiao|arXiv (Cornell University)|2019. 08. 27.

Human Pose and Action Recognition참고 문헌 42인용 수 75

한 줄 요약

HigherHRNet는 다중 해상도 감독 및 히트맵 집계를 통해 스케일 인식 고해상도 피처 피라미드를 도입하여 바텀업 다중인원 포즈 추정을 개선하고, COCO test-dev에서 최첨단 결과를 달성했으며 CrowdPose에서도 강력한 성능을 보입니다.

ABSTRACT

Bottom-up human pose estimation methods have difficulties in predicting the correct pose for small persons due to challenges in scale variation. In this paper, we present HigherHRNet: a novel bottom-up human pose estimation method for learning scale-aware representations using high-resolution feature pyramids. Equipped with multi-resolution supervision for training and multi-resolution aggregation for inference, the proposed approach is able to solve the scale variation challenge in bottom-up multi-person pose estimation and localize keypoints more precisely, especially for small person. The feature pyramid in HigherHRNet consists of feature map outputs from HRNet and upsampled higher-resolution outputs through a transposed convolution. HigherHRNet outperforms the previous best bottom-up method by 2.5% AP for medium person on COCO test-dev, showing its effectiveness in handling scale variation. Furthermore, HigherHRNet achieves new state-of-the-art result on COCO test-dev (70.5% AP) without using refinement or other post-processing techniques, surpassing all existing bottom-up methods. HigherHRNet even surpasses all top-down methods on CrowdPose test (67.6% AP), suggesting its robustness in crowded scene. The code and models are available at https://github.com/HRNet/Higher-HRNet-Human-Pose-Estimation.

연구 동기 및 목표

작은 인원에 특히 주목하여 바텀업 다중 인원 포즈 추정에서 스케일 변화에 대응한다.
척도 전반에 걸친 공간 세부 정보를 보존하는 고해상도 피처 피라미드를 개발한다.
다중 해상도 감독으로 학습하고 추론 시 다중 해상도 히트맵 집계를 수행한다.
COCO에서 키포인트 로컬라이제이션 정확도의 향상과 혼잡한 장면(CrowdPose)에서의 강건함을 입증한다.

제안 방법

HRNet을 기반으로 해상도 1/4에서 시작하여 디콘볼루션으로 업샘플링해 더 높은 해상도 히트맵을 생성하는 고해상도 피처 피라미드를 만든다.
피라미드의 각 해상도로 실제 키포인트를 변환하고 각 해상도에서 가우시안 히트맵을 사용하는 다중 해상도 감독을 적용한다.
여러 해상도에서 히트맵을 예측하고 추론 시 이를 집계해 스케일 인식 히트맵을 형성한다.
연관 임베딩을 사용해 키포인트를 그룹화하여 사람 인스턴스를 형성한다.
피처와 히트맵을 정교화하기 위해 디콘볼루션 모듈에 잔차 블록을 선택적으로 추가한다.

실험 결과

연구 질문

RQ1스케일 인식 고해상도 피처 피라미드가 바텀업 포즈 추정에서 작은 인원의 키포인트 로컬라이제이션을 개선할 수 있는가?
RQ2다중 해상도 감독과 히트맵 집계가 후처리 보정 없이 성능 향상을 가져오는가?
RQ3HigherHRNet이 COCO 및 CrowdPose에서 기존의 바텀업 및 탑다운 방법과 비교해 어떤 성능을 보이는가?

주요 결과

HigherHRNet은 HRNet 베이스라인 대비 66.4 AP를 달성하고 다중 스케일 테스트에서 COCO2017 test-dev에서 70.5 AP를 달성하여 기존의 바텀업 방식들을 능가한다.
중간 크기의 인원에 대해 HigherHRNet은 대형 인원 대비 APM 개선이 더 커 보이므로 스케일 변화에 더 잘 대응한다는 것을 시사한다.
COCO2017 test-dev에서 HigherHRNet-W48은 다중 스케일 테스트를 통해 70.5 AP를 달성하며 개선 없이도 모든 기존 바텀업 방법을 능가한다.
CrowdPose 테스트에서 HigherHRNet-W48은 67.6 AP를 달성하며 탑다운 및 기존 바텀업 방법을 상회하고 혼잡한 장면에서의 강건함을 보여준다.
아브레이션 연구는 디콘볼루션, 피처 연결, 히트맵 집계 및 백본 용량 증가가 모두 AP 향상에 기여하며, 일반적으로 한 개의 디콘볼루션 모듈이 COCO 성능 최적에 가장 기여하는 경향이 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.