Skip to main content
QUICK REVIEW

[논문 리뷰] FastPose: Towards Real-time Pose Estimation and Tracking via Scale-normalized Multi-task Networks

Jiabin Zhang, Zheng Zhu|arXiv (Cornell University)|2019. 08. 15.
Human Pose and Action Recognition참고 문헌 61인용 수 35
한 줄 요약

FastPose는 사람 탐지, 자세 추정, Re-ID를 동시에 수행하는 엔드투엔드 다중 작업 네트워크를 제시하며, 실시간 자세 추정과 가림(occlusion) 인식 추적을 가능하게 하는 scale-normalized 이미지/피처 피라미드를 결합한다. 다양한 백본에서 실시간 속도와 경쟁력 있는 정확도를 달성하고, 가림 인식 Re-ID를 통해 ID 전환 수를 감소시킨다.

ABSTRACT

Both accuracy and efficiency are significant for pose estimation and tracking in videos. State-of-the-art performance is dominated by two-stages top-down methods. Despite the leading results, these methods are impractical for real-world applications due to their separated architectures and complicated calculation. This paper addresses the task of articulated multi-person pose estimation and tracking towards real-time speed. An end-to-end multi-task network (MTN) is designed to perform human detection, pose estimation, and person re-identification (Re-ID) tasks simultaneously. To alleviate the performance bottleneck caused by scale variation problem, a paradigm which exploits scale-normalized image and feature pyramids (SIFP) is proposed to boost both performance and speed. Given the results of MTN, we adopt an occlusion-aware Re-ID feature strategy in the pose tracking module, where pose information is utilized to infer the occlusion state to make better use of Re-ID feature. In experiments, we demonstrate that the pose estimation and tracking performance improves steadily utilizing SIFP through different backbones. Using ResNet-18 and ResNet-50 as backbones, the overall pose tracking framework achieves competitive performance with 29.4 FPS and 12.2 FPS, respectively. Additionally, occlusion-aware Re-ID feature decreases the identification switches by 37% in the pose tracking process.

연구 동기 및 목표

  • 실용적인 영상 애플리케이션에 적합한 실시간 다중 인원 자세 추정 및 추적을 동기 부여한다.
  • 탐지, 자세 추정, 그리고 사람 Re-ID를 공동으로 처리하는 엔드투엔드 다중 작업 네트워크(MTN)를 제안한다.
  • 멀티스케일 테스트 없이도 스케일 변이를 완화하기 위해 scale-normalized 이미지 피라미드(SIFP) 도입한다.
  • 가림하에서도 자세 추적의 안정성을 개선하기 위한 가림 인지 Re-ID 전략을 개발한다.
  • 속도-정확도 트레이드를 보여주고 강건성을 입증하기 위해 FastPose를 다양한 백본에서 평가한다.

제안 방법

  • RoIAlign 기반 풀링을 사용한 세 가지 작업별 헤드를 갖춘 단일 백본의 설계: 탐지(경계상자), 자세 추정(키포인트 히트지도), Re-ID 특징(128-d).
  • 스케일 정규화 이미지 피라미드 및 피처 피라미드(SIFP)를 도입하여 객체를 스케일과 피처 맵에 걸쳐 분포시키고, 비싼 다중 스케일 테스트 없이도 스케일 변화를 감소시킨다.
  • 포즈 키포인트를 사용하여 가림을 추정하고 강건한 트랙 연결을 위한 Re-ID 특징을 검증하는 가림 인지 Re-ID 전략.
  • IoU 기반 위치 단서와 외관 유사성을 결합한 통합 유사도 척도를 사용하여 탐지를 기존 트랙과 연결한다.
  • 상자와 키포인트에 대해 COCO, 자세에 대해 MPII/PoseTrack, Re-ID을 위해 사람 재식별 데이터셋(SSM, PRW)을 활용하는 학습 방식; 독립적인 작업 손실을 사용한 단일 이미지 학습.
  • RPN 이후 상위 탐지를 선택하고 MTN 출력을 가림 인지 추적에 적용하는 추론 흐름.

실험 결과

연구 질문

  • RQ1단일 엔드투엔드 네트워크가 실시간 속도로 탐지, 키포인트 추정, Re-ID를 동시에 처리할 수 있는가?
  • RQ2SIFP를 통한 스케일 정규화가 다중 스케일 테스트 없이도 스케일 변동 하에서 자세 추정과 추적을 개선하는가?
  • RQ3가림 인지 Re-ID가 ID 전환을 줄이고 혼잡하거나 가림이 있는 장면에서 자세 추적의 안정성을 개선하는가?
  • RQ4PoseTrack 및 COCO 데이터셋에서 FastPose를 사용할 때 서로 다른 백본의 속도-정확도 트레이드는 어떠한가?

주요 결과

  • FastPose-18은 PoseTrack에서 ResNet-18-FPN 백본으로 29.4 FPS, mAP 63.1, MOTA 56.8을 달성했다.
  • FastPose-50은 PoseTrack에서 ResNet-50-FPN 백본으로 12.2 FPS, mAP 69.7, MOTA 62.8을 달성했다.
  • SIFP는 백본 전반에 걸쳐 자세 추정 및 추적을 일관되게 개선했다(예: 특정 백본에서 kp AP가 약 2.4 포인트까지 증가하는 등).
  • 가림 인지 Re-ID 특징은 자세 추적에서 ID 전환을 37% 감소시켰다(243.1에서 153.9로).
  • IoU를 Re-ID 특징으로 대체한 한 연구에서 ID 전환이 큰 폭으로 감소했다(41.6%).
  • 이 접근법은 실시간 추적을 가능하게 하면서 경쟁력 있는 자세 추정 성능을 유지하고, 속도 면에서 다수의 최첨단 방법을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.