[논문 리뷰] AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking in Real-Time
AlphaPose는 다인 환경에서 얼굴, 몸, 손, 발을 포함한 전신 자세 추정 및 추적을 위한 실시간 시스템을 제시하며, 대칭적 적분 키포인트 회귀, 자세 기반 NMS, 자세 인식 임베딩, 그리고 불완전한 탐지 및 여러 도메인 데이터를 다루는 학습 전략을 도입한다.
Accurate whole-body multi-person pose estimation and tracking is an important yet challenging topic in computer vision. To capture the subtle actions of humans for complex behavior analysis, whole-body pose estimation including the face, body, hand and foot is essential over conventional body-only pose estimation. In this paper, we present AlphaPose, a system that can perform accurate whole-body pose estimation and tracking jointly while running in realtime. To this end, we propose several new techniques: Symmetric Integral Keypoint Regression (SIKR) for fast and fine localization, Parametric Pose Non-Maximum-Suppression (P-NMS) for eliminating redundant human detections and Pose Aware Identity Embedding for jointly pose estimation and tracking. During training, we resort to Part-Guided Proposal Generator (PGPG) and multi-domain knowledge distillation to further improve the accuracy. Our method is able to localize whole-body keypoints accurately and tracks humans simultaneously given inaccurate bounding boxes and redundant detections. We show a significant improvement over current state-of-the-art methods in both speed and accuracy on COCO-wholebody, COCO, PoseTrack, and our proposed Halpe-FullBody pose estimation dataset. Our model, source codes and dataset are made publicly available at https://github.com/MVIG-SJTU/AlphaPose.
연구 동기 및 목표
- 복잡한 행태에서 얼굴, 손, 발을 포함한 정확하고 실시간의 전신 포즈 추정을 목표로 한다.
- 불완전한 탐지와 중복 제안에도 강건한 상향식(top-down) 프레임워크를 개발한다.
- 키포인트 로컬라이제이션, 탐지 융합, 신원 추적을 개선하기 위한 새로운 기법을 도입한다.
- 야생에서 전신 포즈 추정을 발전시키기 위한 학습 전략과 새로운 데이터셋을 제공한다.
제안 방법
- 대칭적 적분 키포인트 회귀(SIKR)를 통해 빠르고 정확한 키포인트 로컬라이제이션을 달성하고 양자화 오차를 감소시킨다.
- 매개변수 포즈 비최대억제(P-NMS)를 사용한 학습된 포즈 거리 메트릭으로 중복 탐지를 제거한다.
- 포즈 가이드 어텐션으로 포즈 인식 임베딩을 제공하여 포즈 추정과 추적을 함께 가능하게 한다.
- PGPG를 사용해 신체 부위별 탐지기 출력 분포를 시뮬레이션하여 학습 데이터를 보강한다.
- 다중 도메인 지식 증류를 통해 300Wface, FreiHand, InterHand와 같은 데이터셋을 활용해 일반화를 개선한다.
- 키포인트 점수화를 크기 의존성을 줄이고 신뢰도 추정과 적분 회귀를 분리하기 위한 두 단계 히트맵 정규화 전략을 제시한다.
실험 결과
연구 질문
- RQ1상향식 프레임워크에서 다수의 사람에 대해 실시간으로 정확한 전신 포즈 추정을 어떻게 달성할 수 있는가?
- RQ2다양한 스케일과 불완전한 탐지를 효과적으로 처리하는 키포인트 회귀 및 NMS 방법을 설계할 수 있는가?
- RQ3야생 데이터 및 다도메인 공동 로컬라이제이션에 일반화를 개선할 수 있는 학습 전략은 무엇인가?
- RQ4포즈 정보를 활용해 프레임 간 사람 재식별 및 추적을 어떻게 개선할 수 있는가?
주요 결과
- 제안된 SIKR 방법은 양자화 및 스케일 변화 문제를 해결해 신체, 얼굴, 손의 정확한 관절 로컬라이제이션을 달성한다.
- 데이터 기반 포즈 거리의 P-NMS는 중복 제거 및 최종 포즈 선택을 개선한다.
- 포즈 가이드 어텐션과 MSIM은 포즈, 박스, 재식별 특징을 통합해 온라인 실시간 추적을 가능하게 한다.
- PGPG 및 다도메인 증류는 탐지기의 노이즈와 도메인 간 데이터에 대한 강건성을 향상시켜 COCO-wholebody, COCO, PoseTrack, Halpe-FullBody 데이터셋에서 성능을 높인다.
- AlphaPose는 다수 벤치마크에서 속도와 정확도 면에서 최첨단 방법보다 향상을 달성했으며, 공개 코드 및 데이터셋이 제공된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.