[논문 리뷰] DirectPose: Direct End-to-End Multi-Person Pose Estimation
DirectPose는 바운딩박스 탐지나 사후 그룹화 없이 직접 인스턴스 인식 키포인트 예측을 위한 완전한 엔드 투 엔드 싱글샷 프레임워크를 제공합니다. 이를 돕는 새로운 Keypoint Alignment (KPAlign) 모듈과 학습 중 선택적 히트맵 기반 정규화가 있습니다.
We propose the first direct end-to-end multi-person pose estimation framework, termed DirectPose. Inspired by recent anchor-free object detectors, which directly regress the two corners of target bounding-boxes, the proposed framework directly predicts instance-aware keypoints for all the instances from a raw input image, eliminating the need for heuristic grouping in bottom-up methods or bounding-box detection and RoI operations in top-down ones. We also propose a novel Keypoint Alignment (KPAlign) mechanism, which overcomes the main difficulty: lack of the alignment between the convolutional features and predictions in this end-to-end framework. KPAlign improves the framework's performance by a large margin while still keeping the framework end-to-end trainable. With the only postprocessing non-maximum suppression (NMS), our proposed framework can detect multi-person keypoints with or without bounding-boxes in a single shot. Experiments demonstrate that the end-to-end paradigm can achieve competitive or better performance than previous strong baselines, in both bottom-up and top-down methods. We hope that our end-to-end approach can provide a new perspective for the human pose estimation task.
연구 동기 및 목표
- 바운딩박스 탐지와 키포인트 그룹화를 우회하는 다중 인원 포즈 추정을 위한 직접적 엔드투엔드 접근 방식의 필요성 제시.
- 비분화 가능하지 않은 후처리 제거를 위한 엔드투엔드 학습 파이프라인 도입.
- KPAlign를 통한 특징-키포인트 정합으로 키포인트 위치 정확도 향상.
- COCO에서 강력한 Top-Down 및 Bottom-Up 기준선과의 경쟁력 시연.
제안 방법
- 앵커 프리 FCOS 탐지기에 키포인트 탐지 헤드를 추가하여 인스턴스당 K개 키포인트의 2K 좌표를 회귀합니다.
- KPAlign를 도입하여 로케이터(샘플링 위치)와 예측기(키포인트별 회귀)를 통해 지역 특징을 예측된 키포인트와 정렬합니다.
- 미분 가능 샘플링 및 정합으로 엔드투엔드 회귀 기반 키포인트 예측을 허용합니다.
- 학습 중 회귀 학습을 규제하기 위한 선택적 히트맵 기반 보조 작업(테스트 시 제거).
- 계산량을 줄이고 성능을 향상시키기 위해 그룹화된 KPAlign 및 분리된 특징 맵으로 실험합니다.
- COCO에서 바운딩박스 탐지 여부에 따라 평가하고 최상위 Top-Down 및 Bottom-Up 방법과 비교합니다.
실험 결과
연구 질문
- RQ1바운딩박스 탐지나 RoI 기반 작업 없이 입력 이미지를 직접 인스턴스 인식 키포인트로 매핑하는 엔드투엔드 단일 스테이지 프레임워크가 가능합까?
- RQ2_Feature-키포인트 정합(KPAlign)_가 엔드투엔드 키포인트 회귀 성능을 크게 향상시키나요?
- RQ3엔드투엔드 접근법이 COCO에서 정확도와 속도 면에서 전통적인 Top-Down 및 Bottom-Up 방법과 어떻게 비교되나요?
- RQ4학습 중 보조 히트맵 학습이 회귀 기반 키포인트 예측에 미치는 영향은 무엇인가요?
- RQ5공유 작업을 위한 바운딩박스 탐지와 함께 선택적으로 결합될 때 방법이 견고한가요?
주요 결과
| Method | AP kp | AP kp_50 | AP kp_75 | AP kp_M | AP kp_L |
|---|---|---|---|---|---|
| Ours (R-50) | 62.2 | 86.4 | 68.2 | 56.7 | 69.8 |
| Ours (R-50) † | 63.0 | 86.8 | 69.3 | 59.1 | 69.3 |
| Ours (R-101) | 63.3 | 86.7 | 69.4 | 57.8 | 71.2 |
| Ours (R-101) † | 64.8 | 87.8 | 71.1 | 60.4 | 71.5 |
- KPAlign를 갖춘 엔드투엔드 DirectPose가 강력한 기준선과 비교할 때 COCO에서 경쟁력 있는 키포인트 AP를 달성합니다.
- KPAlign은 순수 엔드투엔드 키포인트 회귀에서 큰 성능 향상을 제공합니다(대부분의 ablation에서 7 AP 포인트 이상).
- 그룹화된 KPAlign과 분리된 특징 맵은 계산 비용은 약간의 트레이드오프를 두고도 정확도를 더 향상시킵니다.
- 보조 학습 과제로서의 공동 히트맵 학습은 회귀 기반 키포인트 AP를 크게 향상시킵니다(예: 8x 히트맵으로 52.2에서 58.0 AP로 증가).
- bells- and-whistles 없이 DirectPose (R-50)은 COCO test-dev에서 62.2 AP kp를 달성; R-101에서는 63.3 AP kp; 멀티 스케일 테스트로 각각 63.0과 64.8로 상승합니다.
- 해당 방법은 ResNet 백본에서 COCO minival 기준으로 이미지당 약 74-87 ms의 속도로 실행되며, 유사 설정에서 Mask R-CNN과 비교해 더 빠르거나 비슷한 속도를 보입니다.
- 바운딩박스 탐지와 결합될 때 이 프레임워크는 minival에서 61.5 AP kp와 55.3 AP bb를 달성하여 바운딩박스 분기와의 호환성을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.