QUICK REVIEW

[논문 리뷰] Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression

Zigang Geng, Ke Sun|arXiv (Cornell University)|2021. 04. 06.

Human Pose and Action Recognition참고 문헌 77인용 수 34

한 줄 요약

DEKR을 소개합니다. 멀티-브랜치 적응 컨볼루션을 이용해 키포인트 표현을 분리하고 각 키포인트의 위치를 직접 회귀하여 COCO와 CrowdPose에서 최첨단 성능을 달성하는 바텀업 포즈 추정 방법입니다.

ABSTRACT

In this paper, we are interested in the bottom-up paradigm of estimating human poses from an image. We study the dense keypoint regression framework that is previously inferior to the keypoint detection and grouping framework. Our motivation is that regressing keypoint positions accurately needs to learn representations that focus on the keypoint regions. We present a simple yet effective approach, named disentangled keypoint regression (DEKR). We adopt adaptive convolutions through pixel-wise spatial transformer to activate the pixels in the keypoint regions and accordingly learn representations from them. We use a multi-branch structure for separate regression: each branch learns a representation with dedicated adaptive convolutions and regresses one keypoint. The resulting disentangled representations are able to attend to the keypoint regions, respectively, and thus the keypoint regression is spatially more accurate. We empirically show that the proposed direct regression method outperforms keypoint detection and grouping methods and achieves superior bottom-up pose estimation results on two benchmark datasets, COCO and CrowdPose. The code and models are available at https://github.com/HRNet/DEKR.

연구 동기 및 목표

바닥 매개변수 기반 탐지 및 그룹화에 의존하기보다는 키포인트 영역에 표현을 집중시키는 방향으로 바텀업 포즈 추정을 개선하려고 동기를 부여합니다.
적응형 컨볼루션과 다중 분기 구조를 통해 각 키포인트를 개별적으로 회귀하는 해체된 회귀 프레임워크(DEKR)를 제안합니다.
DEKR을 사용한 직접 키포인트 회귀가 COCO 및 CrowdPose에서 전통적인 키포인트 검출 및 그룹화보다 우수한 성능을 보임을 입증합니다.

제안 방법

키포인트-영역 픽셀을 활성화하기 위한 픽셀-단위 공간 변환기에서 영감을 받은 적응형 컨볼루션을 사용합니다.
각 분기가 하나의 키포인트에 전용 표현을 학습하고 그 2D 오프셋을 회귀하도록 다중 분기 구조를 활용합니다.
결합 회귀 손실과 키포인트 및 중심에 대한 히트맵 손실, 그리고 가중된 OKS 기반 평가를 함께 학습합니다.
추론 시 중심 기반 및 포즈 기반 비최대 억제(NMS)를 수행하고 후보를 순위 매기는 포즈 스코어링 네트워크를 사용합니다.

실험 결과

연구 질문

RQ1해체된(개별 키포인트별) 표현이 바텀업 포즈 추정에서 직접 키포인트 회귀의 품질을 개선할 수 있는가?
RQ2적응 활성화와 분리 회귀 분기 결합이 단일 분기 회귀나 그룹화 접근 방식보다 위치 정확도를 높이는가?
RQ3표준 벤치마크인 COCO와 CrowdPose에서 DEKR의 성능 향상이 기존의 바텀업 방법과 비교해 어떤가?

주요 결과

방법	입력 크기	AP	AP50	AP75	APM	APL	AR	AR-M	AR-L
DEKR (D-32 ss)	512	68.0	86.7	74.5	62.1	77.7	73.0	66.2	82.7
DEKR (D-48 ss)	640	71.0	88.3	77.4	66.7	78.5	76.0	70.6	84.0
DEKR (D-32 ms)	512	71.0	87.7	77.1	65.2	77.8	75.9	70.5	83.6
DEKR (D-48 ms)	640	71.0	89.2	78.0	67.1	76.9	76.7	71.5	83.9
DEKR (CrowdPose val, D-32 ss)	512	65.5	86.2	?	64.1	75.5	75.4	69.7	83.0
DEKR (CrowdPose val, D-48 ss)	640	67.0	88.0	?	66.6	75.8	76.9	71.5	83.9

DEKR은 COCO 및 CrowdPose에서 바텀업 포즈 추정의 최첨단 결과를 달성합니다.
단일 분기 회귀는 개인 키포인트 영역에 집중하는 다중 분기 해체형 접근에 의해 뒤처집니다.
적응형 활성화와 개별 회귀의 결합은 상당한 AP 이득을 제공합니다(예: COCO val에서 HRNet-W32로 68.0 AP; HRNet-W48로 71.0 AP).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.