QUICK REVIEW

[논문 리뷰] Flowing ConvNets for Human Pose Estimation in Videos

Tomas Pfister, James Charles|arXiv (Cornell University)|2015. 06. 09.

Human Pose and Action Recognition참고 문헌 37인용 수 89

한 줄 요약

이 논문은 다중 영상 프레임에서의 히트맵 예측을 시간적으로 정렬하기 위해 광학 흐름을 활용하는 Flowing ConvNet 아키텍처를 제안한다. 이는 인간 자세 추정 정확도를 향상시킨다. 더 깊은 특징 추출, 신체 부위 간 관계를 모델링하는 공간 융합 레이어, 그리고 왜곡된 히트맵의 가중치 융합을 위한 학습 가능한 풀링 레이어를 통합함으로써, BBC Pose, ChaLearn, Poses in the Wild를 포함한 세 가지 영상 자세 추정 데이터셋에서 최신 기술 수준의 성능을 달성한다. 특히 Poses in the Wild에서 d=8일 때 손목 예측 정확도가 30% 향상되었다.

ABSTRACT

The objective of this work is human pose estimation in videos, where multiple frames are available. We investigate a ConvNet architecture that is able to benefit from temporal context by combining information across the multiple frames using optical flow. To this end we propose a network architecture with the following novelties: (i) a deeper network than previously investigated for regressing heatmaps; (ii) spatial fusion layers that learn an implicit spatial model; (iii) optical flow is used to align heatmap predictions from neighbouring frames; and (iv) a final parametric pooling layer which learns to combine the aligned heatmaps into a pooled confidence map. We show that this architecture outperforms a number of others, including one that uses optical flow solely at the input layers, one that regresses joint coordinates directly, and one that predicts heatmaps without spatial fusion. The new architecture outperforms the state of the art by a large margin on three video pose estimation datasets, including the very challenging Poses in the Wild dataset, and outperforms other deep methods that don't use a graphical model on the single-image FLIC benchmark (and also Chen & Yuille and Tompson et al. in the high precision region).

연구 동기 및 목표

다중 프레임 간 시간적 맥락을 활용하여 영상 내 인간 자세 추정 정확도를 향상시키기 위해.
신체 부위 간 운동학적으로 불가능한 자세 예측을 해결하기 위해 은닉된 공간 모델링을 통한 문제 해결을 위해.
광학 흐름을 사용해 인접 프레임의 예측을 왜곡하여 히트맵 신뢰도와 정확도를 향상시키기 위해.
시간적 일致성 또는 공간 관계를 명시적으로 모델링하지 않는 기존 딥 러닝 방법들을 초월하기 위해.
매개변수화된 풀링 레이어를 통한 시간 융합 가중치의 엔드 투 엔드 학습 효과를 입증하기 위해.

제안 방법

더 깊은 ConvNet 아키텍처를 사용해 관절 히트맵을 회귀함으로써, 초보적 히트맵 예측을 넘어서 인간 신체 레이아웃의 은닉된 공간 모델을 학습한다.
신체 부위 간 의존성을 모델링하기 위해 공간 융합 레이어를 도입하여 운동학적으로 불가능한 자세 구성의 수를 줄인다.
광학 흐름을 사용해 이웃 프레임의 히트맵 예측을 현재 프레임으로 왜곡함으로써 이미지 공간에서 시간 예측을 정렬한다.
매개변수화된 풀링 레이어를 통해 시간에 걸쳐 가장 신뢰도 높은 예측에 주목하면서 왜곡된 히트맵을 학습 가능한 방식으로 융합한다.
전체 네트워크를 역전파를 통해 엔드 투 엔드로 훈련함으로써 특징 학습, 흐름 기반 정렬, 융합의 공동 최적화를 가능하게 한다.
다중 프레임 영상 클립을 처리하고 관절 위치를 풀링된 히트맵의 피크 위치로 예측하기 위해 완전 컨볼루션 설계를 사용한다.

실험 결과

연구 질문

RQ1광학 흐름을 효과적으로 사용해 영상 프레임 간 히트맵 예측을 시간적으로 정렬함으로써 자세 추정 성능을 향상시킬 수 있는가?
RQ2추가적인 컨볼루션 레이어를 통해 신체 부위 간 관계의 공간 모델을 학습하면 운동학적으로 일치하지 않는 자세 예측을 줄일 수 있는가?
RQ3다수의 프레임에서 왜곡된 히트맵을 융합하는 학습 가능한 풀링 메커니즘이 단순 평균화나 초기 융합보다 성능이 뛰어나게 되는가?
RQ4어려운 영상 자세 추정 벤치마크에서 제안된 아키텍처는 최신 기술 수준의 방법들과 비교해 어떻게 성능을 냈는가?
RQ5광학 흐름과 공간 융합의 통합이 자세와 외관에 큰 변동이 있는 데이터셋에서 성능 향상에 얼마나 기여하는가?

주요 결과

Poses in the Wild 데이터셋에서 d=8일 때 손목 예측 정확도가 30% 향상되었고, 팔꿈치는 24% 향상되어 이전 최신 기술 수준을 초월했다.
광학 흐름을 사용할 경우 d=8일 때 손목 예측 정확도가 10% 향상되고 팔꿈치는 13% 향상되어 시간 정렬의 가치를 입증했다.
광학 흐름 없이도 ChaLearn 데이터셋에서 d=6일 때 최신 기술 수준을 3.5% 초월했으며, 더 깊은 네트워크를 사용함으로써 추가로 13% 향상되었다.
FLIC 벤치마크에서 비그래픽 모델 기반 방법 대비 d=0.05일 때 정확도가 20% 향상되었고, 고정밀 영역에서는 그래픽 모델 기반 방법과 유사하거나 略적으로 뛰어났다.
질적 실패 분석을 통해 공간 융합 레이어가 다중 히트맵 모드 실패 케이스를 운동학적 일致성 원칙을 적용함으로써 효과적으로 해결함을 보여주었다.
제안된 아키텍처는 BBC Pose, ChaLearn, Poses in the Wild와 같은 세 가지 주요 영상 자세 추정 데이터셋에서 최신 기술 수준의 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.