Skip to main content
QUICK REVIEW

[논문 리뷰] DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model

Eldar Insafutdinov, Leonid Pishchulin|arXiv (Cornell University)|2016. 05. 10.
Human Pose and Action Recognition참고 문헌 12인용 수 115
한 줄 요약

DeeperCut은 1) 깊고 강력한 바디 파트 탐지기; 2) 파트를 조합하기 위한 이미지 조건부 쌍합 항; 3) 추론 속도를 크게 높이고 정확도를 개선하는 점진적 최적화 전략으로 다인 포즈 추정을 향상시킨다.

ABSTRACT

The goal of this paper is to advance the state-of-the-art of articulated pose estimation in scenes with multiple people. To that end we contribute on three fronts. We propose (1) improved body part detectors that generate effective bottom-up proposals for body parts; (2) novel image-conditioned pairwise terms that allow to assemble the proposals into a variable number of consistent body part configurations; and (3) an incremental optimization strategy that explores the search space more efficiently thus leading both to better performance and significant speed-up factors. Evaluation is done on two single-person and two multi-person pose estimation benchmarks. The proposed approach significantly outperforms best known multi-person pose estimation results while demonstrating competitive performance on the task of single person pose estimation. Models and code available at http://pose.mpi-inf.mpg.de

연구 동기 및 목표

  • 깊은 학습으로 바디 파트 탐지를 개선하여 고품질의 하향식 제안을 생성한다.
  • 혼잡한 장면에서 바디 파트를 올바르게 포즈로 조합하기 위해 이미지 조건부 쌍합 항을 도입한다.
  • 정확도를 희생하지 않으면서 추론 속도를 크게 높이는 점진적 최적화 전략을 개발한다.
  • 단일 인원 및 다인 포즈 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

  • 모듈식 완전 컨볼루션 아키텍처를 가진 매우 깊은 ResNet 기반 파트 탐지기를 사용하여 바디 파트에 대한 스코어맵을 생성한다.
  • 8픽셀 보폭을 유지하고 파트 위치 확인을 위한 공간 해상도 복원을 위해 디컨볼루션/홀을 적용하기 위해 ResNet을 조정한다.
  • conv4 블록 내부에 파트 손실 층을 추가하여 그래디언트 흐름과 공간 식별력을 개선하는 중간 감독을 포함한다.
  • 각 파트 위치에서 다른 관절의 상대 위치로 회귀하는 이미지 조건부 쌍합 항 모델을 학습하여 로지스틱 모델 p(z=1|f, ω)로 쌍합 비용을 계산하는 특징을 생성한다.
  • CNN이 예측한 오프셋과 실제 파트 간 오프셋을 비교하여 순방향 및 역방향 방향성 및 각도 항을 포함한 쌍합 비용을 계산한다.
  • 점진적 분기-절단 ILP 해결사를 통해 전체 바디 파트 선택 및 군집화를 여러 개의 작은 인스턴스로 순차적으로 해결하는 최적화를 수행한다.

실험 결과

연구 질문

  • RQ1깊은 파트 탐지기가 단일 인원 및 다인 포즈 추정 성능에 어떤 영향을 미치는가?
  • RQ2이미지 조건부 쌍합 항이 붐비는 장면에서 바디 파트 가설을 일관된 다인 포즈로 그룹화하는 데 기여하는가?
  • RQ3점진적 최적화 전략이 다인 설정에서 런타임을 줄이면서 포즈 정확도를 유지하거나 향상시키는가?

주요 결과

  • 매우 깊은 ResNet 기반의 파트 탐지기가 LSP 및 MPII 벤치마크에서 최첨단 PCK/AUC 성능을 달성하며, 중간 감독이 추가 이득을 제공한다.
  • 이미지 조건부 쌍합 항이 다인 포즈 AP를 크게 개선하고 런타임을 극적으로 감소시킨다(예: 한 비교에서 259,220 s/frame에서 1,987 s/frame으로 감소).
  • 각도 특징을 갖는 양방향 쌍합 항이 제거/추가 연구에서 최상의 AP(52.6% AP)와 최저 런타임(578 s/frame)을 제공한다.
  • 점진적 최적화(3단계)가 AP를 57.6%로 끌어올리고 중앙값 런타임을 271 s/frame으로 감소시킨다(단일 단계 기준과 비교).
  • DeeperCut은 기본 DeepCut 및 강력한 2단계 기준을 능가하고 런타임 감소를 대폭 달성한다.
  • MPII 다인 데이터에서 증분 최적화를 적용한 DeeperCut은 부분 데이터에서 69.7% AP, 전체 데이터에서 59.4% AP를 달성하며 상당한 런타임 절감을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.