QUICK REVIEW

[논문 리뷰] DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model

Eldar Insafutdinov, Leonid Pishchulin|arXiv (Cornell University)|2016. 05. 10.

Human Pose and Action Recognition참고 문헌 12인용 수 115

한 줄 요약

DeeperCut은 1) 깊고 강력한 바디 파트 탐지기; 2) 파트를 조합하기 위한 이미지 조건부 쌍합 항; 3) 추론 속도를 크게 높이고 정확도를 개선하는 점진적 최적화 전략으로 다인 포즈 추정을 향상시킨다.

ABSTRACT

The goal of this paper is to advance the state-of-the-art of articulated pose estimation in scenes with multiple people. To that end we contribute on three fronts. We propose (1) improved body part detectors that generate effective bottom-up proposals for body parts; (2) novel image-conditioned pairwise terms that allow to assemble the proposals into a variable number of consistent body part configurations; and (3) an incremental optimization strategy that explores the search space more efficiently thus leading both to better performance and significant speed-up factors. Evaluation is done on two single-person and two multi-person pose estimation benchmarks. The proposed approach significantly outperforms best known multi-person pose estimation results while demonstrating competitive performance on the task of single person pose estimation. Models and code available at http://pose.mpi-inf.mpg.de

연구 동기 및 목표

깊은 학습으로 바디 파트 탐지를 개선하여 고품질의 하향식 제안을 생성한다.
혼잡한 장면에서 바디 파트를 올바르게 포즈로 조합하기 위해 이미지 조건부 쌍합 항을 도입한다.
정확도를 희생하지 않으면서 추론 속도를 크게 높이는 점진적 최적화 전략을 개발한다.
단일 인원 및 다인 포즈 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

모듈식 완전 컨볼루션 아키텍처를 가진 매우 깊은 ResNet 기반 파트 탐지기를 사용하여 바디 파트에 대한 스코어맵을 생성한다.
8픽셀 보폭을 유지하고 파트 위치 확인을 위한 공간 해상도 복원을 위해 디컨볼루션/홀을 적용하기 위해 ResNet을 조정한다.
conv4 블록 내부에 파트 손실 층을 추가하여 그래디언트 흐름과 공간 식별력을 개선하는 중간 감독을 포함한다.
각 파트 위치에서 다른 관절의 상대 위치로 회귀하는 이미지 조건부 쌍합 항 모델을 학습하여 로지스틱 모델 p(z=1|f, ω)로 쌍합 비용을 계산하는 특징을 생성한다.
CNN이 예측한 오프셋과 실제 파트 간 오프셋을 비교하여 순방향 및 역방향 방향성 및 각도 항을 포함한 쌍합 비용을 계산한다.
점진적 분기-절단 ILP 해결사를 통해 전체 바디 파트 선택 및 군집화를 여러 개의 작은 인스턴스로 순차적으로 해결하는 최적화를 수행한다.

실험 결과

연구 질문

RQ1깊은 파트 탐지기가 단일 인원 및 다인 포즈 추정 성능에 어떤 영향을 미치는가?
RQ2이미지 조건부 쌍합 항이 붐비는 장면에서 바디 파트 가설을 일관된 다인 포즈로 그룹화하는 데 기여하는가?
RQ3점진적 최적화 전략이 다인 설정에서 런타임을 줄이면서 포즈 정확도를 유지하거나 향상시키는가?

주요 결과

매우 깊은 ResNet 기반의 파트 탐지기가 LSP 및 MPII 벤치마크에서 최첨단 PCK/AUC 성능을 달성하며, 중간 감독이 추가 이득을 제공한다.
이미지 조건부 쌍합 항이 다인 포즈 AP를 크게 개선하고 런타임을 극적으로 감소시킨다(예: 한 비교에서 259,220 s/frame에서 1,987 s/frame으로 감소).
각도 특징을 갖는 양방향 쌍합 항이 제거/추가 연구에서 최상의 AP(52.6% AP)와 최저 런타임(578 s/frame)을 제공한다.
점진적 최적화(3단계)가 AP를 57.6%로 끌어올리고 중앙값 런타임을 271 s/frame으로 감소시킨다(단일 단계 기준과 비교).
DeeperCut은 기본 DeepCut 및 강력한 2단계 기준을 능가하고 런타임 감소를 대폭 달성한다.
MPII 다인 데이터에서 증분 최적화를 적용한 DeeperCut은 부분 데이터에서 69.7% AP, 전체 데이터에서 59.4% AP를 달성하며 상당한 런타임 절감을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.