QUICK REVIEW

[논문 리뷰] Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation

Jie Yang, Ailing Zeng|arXiv (Cornell University)|2023. 02. 03.

Human Pose and Action Recognition인용 수 16

한 줄 요약

ED-Pose는 명시적 인간 및 키포인트 박스 탐지를 사용하여 전역 정보와 지역 정보를 통합하는 완전한 엔도-투-엔드 프레임워크를 제시하며, CrowdPose에서 최첨단 결과를 달성하고 post-processing 없이 COCO에서도 강력한 성능을 보인다.

ABSTRACT

This paper presents a novel end-to-end framework with Explicit box Detection for multi-person Pose estimation, called ED-Pose, where it unifies the contextual learning between human-level (global) and keypoint-level (local) information. Different from previous one-stage methods, ED-Pose re-considers this task as two explicit box detection processes with a unified representation and regression supervision. First, we introduce a human detection decoder from encoded tokens to extract global features. It can provide a good initialization for the latter keypoint detection, making the training process converge fast. Second, to bring in contextual information near keypoints, we regard pose estimation as a keypoint box detection problem to learn both box positions and contents for each keypoint. A human-to-keypoint detection decoder adopts an interactive learning strategy between human and keypoint features to further enhance global and local feature aggregation. In general, ED-Pose is conceptually simple without post-processing and dense heatmap supervision. It demonstrates its effectiveness and efficiency compared with both two-stage and one-stage methods. Notably, explicit box detection boosts the pose estimation performance by 4.5 AP on COCO and 9.9 AP on CrowdPose. For the first time, as a fully end-to-end framework with a L1 regression loss, ED-Pose surpasses heatmap-based Top-down methods under the same backbone by 1.2 AP on COCO and achieves the state-of-the-art with 76.6 AP on CrowdPose without bells and whistles. Code is available at https://github.com/IDEA-Research/ED-Pose.

연구 동기 및 목표

post-processing 없이 전역(인간 수준) 및 지역(키포인트 수준) 단서를 통합하여 엔도-투-엔드 다중 인물 포즈 추정을 동기화한다.
두 개의 명시적 박스 탐지 디코더(인간 및 인간-키포인트 간 연결)를 제안하여 전역-지역 학습의 일관성을 가능하게 한다.
명시적 박스 탐지가 수렴 속도를 가속하고 COCO와 CrowdPose 전반에서 정확도를 향상시킨다는 것을 보여준다.
다양한 백본 하에서 단일 스테이지, 이중 스테이지 및 DETR 기반 방법과 비교하여 경쟁력 있는 또는 우수한 성능을 보인다.

제안 방법

인간 탐지 디코더와 인간-키포인트 탐지 디코더를 도입하여 사람과 키포인트에 대한 명시적 박스를 예측한다.
인간과 키포인트를 ((x,y,h,w)) 형태의 박스 예측으로 표현하고 단일 L1 기반 회귀 손실 및 헝가리안 집합 매칭을 통해 통합 학습을 최적화한다.
거친-정밀 쿼리 선택을 사용하여 인간 쿼리를 초기화하고 다듬은 뒤, 인간-키포인트 쿼리 확장을 통해 키포인트 박스를 예측한다.
인간 및 키포인트 탐지 간의 상호 작용 학습을 이용하여 글로벌 컨텍스트를 로컬 키포인트 예측으로 전파한다.
밀집 열지도 감독이나 포스트 프로세싱 없이 엔드-투-엔드로 학습하며 두 단계에서 공유되는 회귀 기반 손실 체계를 사용한다.
COCO 및 CrowdPose에서 상위-topDown, bottom-Up, DETR 기반 방법과 비교하여 효率성 및 정확도 이점을 입증한다.

실험 결과

연구 질문

RQ1인간 및 키포인트에 대한 명시적 박스 탐지가 포스트 프로세싱 없이 완전한 엔도-투-엔드 포즈 추정 프레임워크를 가능하게 하는가?
RQ2일관된 L1 회귀 손실 및 통합 박스 표현이 다중 인물 포즈 추정의 수렴 속도와 정확도를 향상시키는가?
RQ3전역(인간) 및 지역(키포인트) 의존성은 앵커링 및 군중 장면 처리에서 엔드-투-엔드 프레임워크에서 어떻게 상호 작용하는가?
RQ4COCO와 CrowdPose에서 명시적 박스 탐지를 사용했을 때 기존 방법과 비교하여 성능 향상이 있는가?

주요 결과

명시적 인간 박스 탐지는 수렴 속도와 정확도를 크게 향상시킨다( COCO에서 AP +4.5, CrowdPose에서 AP +9.9 ).
ED-Pose는 동일한 백본에서 열 지도 기반의 동급 Top-Down 방법보다 COCO에서 1.2 AP 더 높은 성능을 달성하고 PETR보다 현저히 우수한 차이를 보인다.
CrowdPose에서 ED-Pose는 다중 스케일 테스트나 플립 없이도 76.6 AP를 달성하여 최첨단 결과를 달성한다.
DETR 기반 방법과 비교하여 ED-Pose는 수렴 속도와 정확도가 더 높으며 포스트 프로세싱 없이도 우수한 엔드-투-엔드 성능을 제공한다.
Swin-L 백본으로 COCO val/test-dev에서 75.8 AP, CrowdPose에서 Swin-L 및 불필요한 장식 없이 76.6 AP에 도달한다.
변형 연구를 통해 명시적 인간 탐지, 단순 (x,y) 대신 (x,y,w,h) 키포인트 박스 표현의 효과 및 인간과 키포인트 간의 상호 작용 학습의 효과가 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.