Skip to main content
QUICK REVIEW

[논문 리뷰] Joint Flow: Temporal Flow Fields for Multi Person Tracking

Andreas Doering, Umar Iqbal|arXiv (Cornell University)|2018. 05. 11.
Human Pose and Action Recognition참고 문헌 16인용 수 28
한 줄 요약

이 논문은 일련의 프레임 간 관절의 운동을 나타내는 벡터 필드인 시간 흐름 필드(TFF)를 예측하기 위해 경량 CNN을 사용하는 새로운 온라인 다중 인물 자세 추적 방법 JointFlow를 제안한다. TFF를 이용해 근사적인 이분 그래프 매칭 프레임워크를 적용함으로써, 더 작은 네트워크 아키텍처를 가짐에도 불구하고 PoseTrack 검증 세트에서 SOTA 수준의 MOTA 59.1과 테스트 세트에서 53.1을 달성하여 광학 흐름 및 이전 SOTA 방법을 능가한다.

ABSTRACT

In this work we propose an online multi person pose tracking approach which works on two consecutive frames $I_{t-1}$ and $I_t$. The general formulation of our temporal network allows to rely on any multi person pose estimation approach as spatial network. From the spatial network we extract image features and pose features for both frames. These features serve as input for our temporal model that predicts Temporal Flow Fields (TFF). These TFF are vector fields which indicate the direction in which each body joint is going to move from frame $I_{t-1}$ to frame $I_t$. This novel representation allows to formulate a similarity measure of detected joints. These similarities are used as binary potentials in a bipartite graph optimization problem in order to perform tracking of multiple poses. We show that these TFF can be learned by a relative small CNN network whilst achieving state-of-the-art multi person pose tracking results.

연구 동기 및 목표

  • 큰 운동, 가림, 외형 변화가 있는 환경에서 온라인 다중 인물 자세 추적 문제를 해결하기 위해.
  • 과거 프레임 간의 사람 관계를 설정하기 위해 작업에 특화된 운동 표현을 학습함으로써 성능을 향상시키기 위해.
  • 복잡한 시공간 최적화에 의존하는 것을 줄이기 위해, 경량이며 엔드 투 엔드로 훈련 가능한 시간 흐름 필드 네트워크를 도입하기 위해.
  • 비용이 많이 드는 배치 처리나 전역 최적화를 피함으로써 효율적이고 실시간 추적을 가능하게 하기 위해.
  • 이미지 및 자세 특징에서 유도된 구조적 지식이 시간 흐름 예측 품질에 크게 기여함을 입증하기 위해.

제안 방법

  • 공간 네트워크는 연속된 프레임 $I_{t-1}$ 및 $I_{t}$에서 다중 인물 자세 추정을 수행하고, 이미지 및 자세 특징을 추출한다.
  • 시간 네트워크는 $I_{t-1}$에서 $I_{t}$로의 관절 이동을 나타내는 2차원 벡터 필드인 시간 흐름 필드(TFF)를 예측하며, 이는 작은 CNN을 통해 학습된다.
  • TFF는 이분 그래프 매칭 설정에서 검출된 관절 간 유사도 점수를 계산하는 데 사용된다.
  • 유사도 에너지 함수는 $E_{TFF}^{T}(p_{j,m}^{t-1},p_{j,n}^{t}) = e^{-\frac{\|p_{j,n}^{t} - (p^{t-1}_{j,m} + \text{TFF}(p^{t-1}_{j,m}))\|^2}{\sigma^2}}$로 정의되며, 여기서 TFF는 예상되는 관절 위치를 예측한다.
  • 이 방법은 어떤 오프더쇼프 자세 추정 모델과도 통합 가능하며, 온라인 추론을 통해 실시간으로 작동한다.
  • 7 프레임 미만의 짧은 트랙을 제거함으로써 검증 세트에서 MOTA가 59.1에서 59.8로 향상된다.

실험 결과

연구 질문

  • RQ1일반적인 메트릭인 PCKh나 IoU와 비교해, 작업에 특화된 학습 가능한 관절 운동 표현이 온라인 다중 인물 자세 추적 성능을 향상시킬 수 있는가?
  • RQ2광학 흐름에 비해 경량 CNN 기반 시간 흐름 필드(TFF) 표현은 추적 성능과 효율성 측면에서 어떻게 비교되는가?
  • RQ3복잡한 전역 최적화나 장거리 시간 모델링 없이도 TFF가 강력한 추적 성능을 달성할 수 있는가?
  • RQ4공간 네트워크에서 유도된 이미지 및 자세 특징이 예측된 TFF의 품질에 얼마나 기여하는가?
  • RQ5TFF 기반의 근사적 이분 그래프 매칭 전략이 PoseTrack과 같은 표준 벤치마크에서 SOTA 성능을 달성할 수 있는가?

주요 결과

  • JointFlow는 PoseTrack 검증 세트에서 MOTA 59.1을 기록하며 공식 랭킹에서 2위를 차지했고, 테스트 세트에서는 최종 MOTA 53.1을 달성했다.
  • 더 작은 네트워크를 사용함에도 불구하고 광학 흐름 기반 추적(MOTA 58.5)을 능가함으로써, TFF가 작업에 특화된 표현으로서의 효과성을 입증했다.
  • 7 프레임 미만의 트랙을 제거함으로써 검증 세트에서 MOTA가 59.8로 향상되었으며, 이는 TFF가 잡음이나 잘못된 검출을 효과적으로 걸러내는 데 기여함을 시사한다.
  • TFF 기반 매칭은 ProTracker(MOTA 55.2)와 PoseFlow(MOTA 58.3)보다 높은 정밀도(87.1)와 재현율(71.9)을 기록하여 우수한 관계 설정 성능을 입증했다.
  • TFF의 구조적 인덕티브 바이어스 덕분에 큰 운동, 가림, 크기 변화가 있는 다양한 상황에서도 잘 일반화됨을 확인했다.
  • 절단 실험 결과, 이미지 및 자세 특징이 고품질의 TFF 예측에 필수적임을 확인하였으며, 이를 제거할 경우 성능이 크게 떨어졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.