QUICK REVIEW

[논문 리뷰] DirectPose: Direct End-to-End Multi-Person Pose Estimation

Zhi Tian, Hao Chen|arXiv (Cornell University)|2019. 11. 18.

Human Pose and Action Recognition참고 문헌 29인용 수 80

한 줄 요약

DirectPose는 바운딩박스 탐지나 사후 그룹화 없이 직접 인스턴스 인식 키포인트 예측을 위한 완전한 엔드 투 엔드 싱글샷 프레임워크를 제공합니다. 이를 돕는 새로운 Keypoint Alignment (KPAlign) 모듈과 학습 중 선택적 히트맵 기반 정규화가 있습니다.

ABSTRACT

We propose the first direct end-to-end multi-person pose estimation framework, termed DirectPose. Inspired by recent anchor-free object detectors, which directly regress the two corners of target bounding-boxes, the proposed framework directly predicts instance-aware keypoints for all the instances from a raw input image, eliminating the need for heuristic grouping in bottom-up methods or bounding-box detection and RoI operations in top-down ones. We also propose a novel Keypoint Alignment (KPAlign) mechanism, which overcomes the main difficulty: lack of the alignment between the convolutional features and predictions in this end-to-end framework. KPAlign improves the framework's performance by a large margin while still keeping the framework end-to-end trainable. With the only postprocessing non-maximum suppression (NMS), our proposed framework can detect multi-person keypoints with or without bounding-boxes in a single shot. Experiments demonstrate that the end-to-end paradigm can achieve competitive or better performance than previous strong baselines, in both bottom-up and top-down methods. We hope that our end-to-end approach can provide a new perspective for the human pose estimation task.

연구 동기 및 목표

바운딩박스 탐지와 키포인트 그룹화를 우회하는 다중 인원 포즈 추정을 위한 직접적 엔드투엔드 접근 방식의 필요성 제시.
비분화 가능하지 않은 후처리 제거를 위한 엔드투엔드 학습 파이프라인 도입.
KPAlign를 통한 특징-키포인트 정합으로 키포인트 위치 정확도 향상.
COCO에서 강력한 Top-Down 및 Bottom-Up 기준선과의 경쟁력 시연.

제안 방법

앵커 프리 FCOS 탐지기에 키포인트 탐지 헤드를 추가하여 인스턴스당 K개 키포인트의 2K 좌표를 회귀합니다.
KPAlign를 도입하여 로케이터(샘플링 위치)와 예측기(키포인트별 회귀)를 통해 지역 특징을 예측된 키포인트와 정렬합니다.
미분 가능 샘플링 및 정합으로 엔드투엔드 회귀 기반 키포인트 예측을 허용합니다.
학습 중 회귀 학습을 규제하기 위한 선택적 히트맵 기반 보조 작업(테스트 시 제거).
계산량을 줄이고 성능을 향상시키기 위해 그룹화된 KPAlign 및 분리된 특징 맵으로 실험합니다.
COCO에서 바운딩박스 탐지 여부에 따라 평가하고 최상위 Top-Down 및 Bottom-Up 방법과 비교합니다.

실험 결과

연구 질문

RQ1바운딩박스 탐지나 RoI 기반 작업 없이 입력 이미지를 직접 인스턴스 인식 키포인트로 매핑하는 엔드투엔드 단일 스테이지 프레임워크가 가능합까?
RQ2_Feature-키포인트 정합(KPAlign)_가 엔드투엔드 키포인트 회귀 성능을 크게 향상시키나요?
RQ3엔드투엔드 접근법이 COCO에서 정확도와 속도 면에서 전통적인 Top-Down 및 Bottom-Up 방법과 어떻게 비교되나요?
RQ4학습 중 보조 히트맵 학습이 회귀 기반 키포인트 예측에 미치는 영향은 무엇인가요?
RQ5공유 작업을 위한 바운딩박스 탐지와 함께 선택적으로 결합될 때 방법이 견고한가요?

주요 결과

Method	AP kp	AP kp_50	AP kp_75	AP kp_M	AP kp_L
Ours (R-50)	62.2	86.4	68.2	56.7	69.8
Ours (R-50) †	63.0	86.8	69.3	59.1	69.3
Ours (R-101)	63.3	86.7	69.4	57.8	71.2
Ours (R-101) †	64.8	87.8	71.1	60.4	71.5

KPAlign를 갖춘 엔드투엔드 DirectPose가 강력한 기준선과 비교할 때 COCO에서 경쟁력 있는 키포인트 AP를 달성합니다.
KPAlign은 순수 엔드투엔드 키포인트 회귀에서 큰 성능 향상을 제공합니다(대부분의 ablation에서 7 AP 포인트 이상).
그룹화된 KPAlign과 분리된 특징 맵은 계산 비용은 약간의 트레이드오프를 두고도 정확도를 더 향상시킵니다.
보조 학습 과제로서의 공동 히트맵 학습은 회귀 기반 키포인트 AP를 크게 향상시킵니다(예: 8x 히트맵으로 52.2에서 58.0 AP로 증가).
bells- and-whistles 없이 DirectPose (R-50)은 COCO test-dev에서 62.2 AP kp를 달성; R-101에서는 63.3 AP kp; 멀티 스케일 테스트로 각각 63.0과 64.8로 상승합니다.
해당 방법은 ResNet 백본에서 COCO minival 기준으로 이미지당 약 74-87 ms의 속도로 실행되며, 유사 설정에서 Mask R-CNN과 비교해 더 빠르거나 비슷한 속도를 보입니다.
바운딩박스 탐지와 결합될 때 이 프레임워크는 minival에서 61.5 AP kp와 55.3 AP bb를 달성하여 바운딩박스 분기와의 호환성을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.