Skip to main content
QUICK REVIEW

[논문 리뷰] DirectPose: Direct End-to-End Multi-Person Pose Estimation

Zhi Tian, Hao Chen|arXiv (Cornell University)|2019. 11. 18.
Human Pose and Action Recognition참고 문헌 29인용 수 80
한 줄 요약

DirectPose는 바운딩박스 탐지나 사후 그룹화 없이 직접 인스턴스 인식 키포인트 예측을 위한 완전한 엔드 투 엔드 싱글샷 프레임워크를 제공합니다. 이를 돕는 새로운 Keypoint Alignment (KPAlign) 모듈과 학습 중 선택적 히트맵 기반 정규화가 있습니다.

ABSTRACT

We propose the first direct end-to-end multi-person pose estimation framework, termed DirectPose. Inspired by recent anchor-free object detectors, which directly regress the two corners of target bounding-boxes, the proposed framework directly predicts instance-aware keypoints for all the instances from a raw input image, eliminating the need for heuristic grouping in bottom-up methods or bounding-box detection and RoI operations in top-down ones. We also propose a novel Keypoint Alignment (KPAlign) mechanism, which overcomes the main difficulty: lack of the alignment between the convolutional features and predictions in this end-to-end framework. KPAlign improves the framework's performance by a large margin while still keeping the framework end-to-end trainable. With the only postprocessing non-maximum suppression (NMS), our proposed framework can detect multi-person keypoints with or without bounding-boxes in a single shot. Experiments demonstrate that the end-to-end paradigm can achieve competitive or better performance than previous strong baselines, in both bottom-up and top-down methods. We hope that our end-to-end approach can provide a new perspective for the human pose estimation task.

연구 동기 및 목표

  • 바운딩박스 탐지와 키포인트 그룹화를 우회하는 다중 인원 포즈 추정을 위한 직접적 엔드투엔드 접근 방식의 필요성 제시.
  • 비분화 가능하지 않은 후처리 제거를 위한 엔드투엔드 학습 파이프라인 도입.
  • KPAlign를 통한 특징-키포인트 정합으로 키포인트 위치 정확도 향상.
  • COCO에서 강력한 Top-Down 및 Bottom-Up 기준선과의 경쟁력 시연.

제안 방법

  • 앵커 프리 FCOS 탐지기에 키포인트 탐지 헤드를 추가하여 인스턴스당 K개 키포인트의 2K 좌표를 회귀합니다.
  • KPAlign를 도입하여 로케이터(샘플링 위치)와 예측기(키포인트별 회귀)를 통해 지역 특징을 예측된 키포인트와 정렬합니다.
  • 미분 가능 샘플링 및 정합으로 엔드투엔드 회귀 기반 키포인트 예측을 허용합니다.
  • 학습 중 회귀 학습을 규제하기 위한 선택적 히트맵 기반 보조 작업(테스트 시 제거).
  • 계산량을 줄이고 성능을 향상시키기 위해 그룹화된 KPAlign 및 분리된 특징 맵으로 실험합니다.
  • COCO에서 바운딩박스 탐지 여부에 따라 평가하고 최상위 Top-Down 및 Bottom-Up 방법과 비교합니다.

실험 결과

연구 질문

  • RQ1바운딩박스 탐지나 RoI 기반 작업 없이 입력 이미지를 직접 인스턴스 인식 키포인트로 매핑하는 엔드투엔드 단일 스테이지 프레임워크가 가능합까?
  • RQ2_Feature-키포인트 정합(KPAlign)_가 엔드투엔드 키포인트 회귀 성능을 크게 향상시키나요?
  • RQ3엔드투엔드 접근법이 COCO에서 정확도와 속도 면에서 전통적인 Top-Down 및 Bottom-Up 방법과 어떻게 비교되나요?
  • RQ4학습 중 보조 히트맵 학습이 회귀 기반 키포인트 예측에 미치는 영향은 무엇인가요?
  • RQ5공유 작업을 위한 바운딩박스 탐지와 함께 선택적으로 결합될 때 방법이 견고한가요?

주요 결과

MethodAP kpAP kp_50AP kp_75AP kp_MAP kp_L
Ours (R-50)62.286.468.256.769.8
Ours (R-50) †63.086.869.359.169.3
Ours (R-101)63.386.769.457.871.2
Ours (R-101) †64.887.871.160.471.5
  • KPAlign를 갖춘 엔드투엔드 DirectPose가 강력한 기준선과 비교할 때 COCO에서 경쟁력 있는 키포인트 AP를 달성합니다.
  • KPAlign은 순수 엔드투엔드 키포인트 회귀에서 큰 성능 향상을 제공합니다(대부분의 ablation에서 7 AP 포인트 이상).
  • 그룹화된 KPAlign과 분리된 특징 맵은 계산 비용은 약간의 트레이드오프를 두고도 정확도를 더 향상시킵니다.
  • 보조 학습 과제로서의 공동 히트맵 학습은 회귀 기반 키포인트 AP를 크게 향상시킵니다(예: 8x 히트맵으로 52.2에서 58.0 AP로 증가).
  • bells- and-whistles 없이 DirectPose (R-50)은 COCO test-dev에서 62.2 AP kp를 달성; R-101에서는 63.3 AP kp; 멀티 스케일 테스트로 각각 63.0과 64.8로 상승합니다.
  • 해당 방법은 ResNet 백본에서 COCO minival 기준으로 이미지당 약 74-87 ms의 속도로 실행되며, 유사 설정에서 Mask R-CNN과 비교해 더 빠르거나 비슷한 속도를 보입니다.
  • 바운딩박스 탐지와 결합될 때 이 프레임워크는 minival에서 61.5 AP kp와 55.3 AP bb를 달성하여 바운딩박스 분기와의 호환성을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.