Skip to main content
QUICK REVIEW

[논문 리뷰] Rethinking the Heatmap Regression for Bottom-up Human Pose Estimation

Zhengxiong Luo, Zhicheng Wang|arXiv (Cornell University)|2020. 12. 30.
Human Pose and Action Recognition참고 문헌 35인용 수 23
한 줄 요약

이 논문은 하위-업 휴먼 포즈 추정에서 척도 및 불확실성에 기반해 키포인트 감독을 위한 가우시안 커널 표준편차를 동적으로 조정함으로써 성능을 향상시키기 위해 스케일 적응형 히트맵 회귀(SAHR)와 웨이트 적응형 히트맵 회귀(WAHR)를 제안한다. SAHR는 스케일 맵 헤드를 통해 각 키포인트별 표준편차를 학습하고, WAHR는 손실 재가중을 통해 전경-배경 클래스 불균형을 완화한다. 이 방법은 COCO test-dev2017에서 72.0 AP를 기록하여 최신 기술보다 +1.5 AP 향상시켰다.

ABSTRACT

Heatmap regression has become the most prevalent choice for nowadays human pose estimation methods. The ground-truth heatmaps are usually constructed via covering all skeletal keypoints by 2D gaussian kernels. The standard deviations of these kernels are fixed. However, for bottom-up methods, which need to handle a large variance of human scales and labeling ambiguities, the current practice seems unreasonable. To better cope with these problems, we propose the scale-adaptive heatmap regression (SAHR) method, which can adaptively adjust the standard deviation for each keypoint. In this way, SAHR is more tolerant of various human scales and labeling ambiguities. However, SAHR may aggravate the imbalance between fore-background samples, which potentially hurts the improvement of SAHR. Thus, we further introduce the weight-adaptive heatmap regression (WAHR) to help balance the fore-background samples. Extensive experiments show that SAHR together with WAHR largely improves the accuracy of bottom-up human pose estimation. As a result, we finally outperform the state-of-the-art model by +1.5AP and achieve 72.0AP on COCO test-dev2017, which is com-arable with the performances of most top-down methods. Source codes are available at https://github.com/greatlog/SWAHR-HumanPose.

연구 동기 및 목표

  • 고정된 표준편차를 가진 히트맵 회귀의 한계, 특히 척도 변동성과 레이블링의 모호성 문제를 해결하기 위해.
  • 사람의 척도와 불확실성에 기반해 각 키포인트별로 가우시안 커널 표준편차를 적응적으로 조정하는 방법을 제안하여 강인성 향상.
  • 적응형 회귀로 인해 발생하는 전경-배경 샘플 불균형 문제를 완화하여 모델 수렴 및 성능 향상을 도모하기 위해.
  • 인간 검출 또는 다중 척도 테스트에 의존하지 않고도 하위-업 포즈 추정에서 최신 기술 수준의 성능을 달성하기 위해.

제안 방법

  • 각 키포인트별 표준편차 배율을 예측하는 스케일 맵 헤드를 도입하여, 히트맵 감독에서 가우시안 커널의 산포를 적응적으로 조정할 수 있도록 한다.
  • 기본 표준편차 σ₀를 예측된 스케일 맵 s로 스케일링하여 진짜 히트맵을 구성함으로써, 각 키포인트에 대해 σ = σ₀ · s를 도출한다.
  • 각 키포인트별로 학습 가능한 공간적으로 변화하는 표준편차를 도입하여 의미적 구분 영역과 레이블링 불확실성을 더 잘 모델링할 수 있도록 한다.
  • 포칼 손실을 영감으로 삼아 전경 샘플에 집중하고 쉬운(배경) 샘플의 영향을 감소시키는 가중치 적응형 손실 메커니즘을 도입한다.
  • SAHR와 WAHR를 통합된 학습 목표로 조합하여, 다수의 사람과 척도 변동이 있는 상황에서도 일반화 및 정확도 향상을 도모한다.
  • 표준 백본(예: HrHRNet-W48)에 스케일 맵 헤드와 웨이트 맵 헤드를 추가하고, 적응된 히트맵에 대해 L2 손실을 사용해 엔드 투 엔드로 학습한다.
Figure 1: Top row: the noses of different persons are covered by gaussian kernels with the same standard deviation. Bottom row: the standard deviations for keypoints of different persons are adaptively adjusted in SAHR.
Figure 1: Top row: the noses of different persons are covered by gaussian kernels with the same standard deviation. Bottom row: the standard deviations for keypoints of different persons are adaptively adjusted in SAHR.

실험 결과

연구 질문

  • RQ1히트맵 회귀에서 적응형 표준편차가 큰 척도 변동성이 있는 하위-업 휴먼 포즈 추정에서 성능 향상에 기여하는가?
  • RQ2변동 가능한 가우시안 커널 산포를 통해 키포인트의 불확실성을 모델링하면 정확도와 강인성에 어떤 영향을 미치는가?
  • RQ3적응형 표준편차 도입이 히트맵 감독에서 전경-배경 클래스 불균형을 악화시키는가?
  • RQ4학습 가능한 적응형 가중치 부여 방식이 이 불균형 문제를 완화하고 성능 향상에 기여하는가?
  • RQ5SAHR와 WAHR가 함께 하위-업 포즈 추정에서 얼마나 높은 성능을 달성할 수 있는가, 특히 혼잡한 장면에서의 성능은 어떠한가?

주요 결과

  • 제안된 SAHR 방법은 COCO test-dev2017에서 기준 모델인 HrHRNet-W48 대비 +1.5 AP 향상시켜 72.0 AP를 달성했다.
  • 더 도전적인 CrowdPose 데이터셋에서, 다중 척도 테스트 없이도 71.6 AP를 기록했고, 다중 척도 테스트를 적용하면 73.8 AP를 달성하여 혼잡한 장면에서 상위-업 방법을 초월했다.
  • 제거 분석 결과, 적응형 표준편차가 큰 인물에 대해 성능 향상이 뚜렷하게 나타났으며, 큰 인스턴스에서 AP가 66.6에서 75.1로 상승했다.
  • 웨이트 적응형 손실(WAHR)은 쉬운 배경 샘플의 영향을 효과적으로 줄여, 특히 혼잡한 상황에서 어려운 샘플의 성능 향상에 기여했다.
  • 이 방법은 오염 및 검출 오류로 인해 상위-업 방법이 실패하는 혼잡한 장면에서도 뛰어난 일반화 능력을 보였으며, HrHRNet-W48 + SWAHR를 통해 최신 기술 수준의 결과를 달성했다.
Figure 2: During training, the ground-truth heatmaps are firstly scaled according to predicted scale maps and then are used to supervise the whole model via weight-adaptive loss. During testing, the predicted heatmaps and associative embeddings are used for grouping of individual persons.
Figure 2: During training, the ground-truth heatmaps are firstly scaled according to predicted scale maps and then are used to supervise the whole model via weight-adaptive loss. During testing, the predicted heatmaps and associative embeddings are used for grouping of individual persons.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.