QUICK REVIEW

[논문 리뷰] Human Pose Regression by Combining Indirect Part Detection and Contextual Information

Diogo Luvizon, Hedi Tabia|arXiv (Cornell University)|2017. 10. 06.

Human Pose and Action Recognition참고 문헌 46인용 수 235

한 줄 요약

미분가능한 Soft-argmax를 사용하여 열화상 맵을 관절 좌표로 변환하고 맥락 정보를 보강한 엔드-투-엔드 학습 가능한 포즈 회귀 방법으로, 회귀 방법과의 경쟁력 있는 성능을 달성하고 검출 기반 접근방식에 근접한 성능을 보임.

ABSTRACT

In this paper, we propose an end-to-end trainable regression approach for human pose estimation from still images. We use the proposed Soft-argmax function to convert feature maps directly to joint coordinates, resulting in a fully differentiable framework. Our method is able to learn heat maps representations indirectly, without additional steps of artificial ground truth generation. Consequently, contextual information can be included to the pose predictions in a seamless way. We evaluated our method on two very challenging datasets, the Leeds Sports Poses (LSP) and the MPII Human Pose datasets, reaching the best performance among all the existing regression methods and comparable results to the state-of-the-art detection based approaches.

연구 동기 및 목표

2D 인간 포즈 추정에서 회귀와 검출 간의 차이를 해소하려는 동기를 제시한다.
heat map에서 직접 2D 관절 좌표를 회귀하기 위한 미분 가능한 Soft-argmax 층을 제안한다.
부분 기반(part-based) 및 맥락(contextual) heat map을 도입하여 포즈 예측을 향상시킨다.
훈련 중에 인위적으로 생성된 heat map 없이 엔드-투-엔드 학습을 가능하게 한다.
표준 벤치마크에서 검출 기반 방법에 비해 경쟁력 있는 정확도를 입증한다.

제안 방법

Stem, Block-A, Block-B를 갖는 CNN 구조를 도입하여 부분 기반 및 맥락 heat map을 생성한다.
heat map을 관절 좌표로 변환하기 위해 완전히 미분 가능한 방식으로 Soft-argmax를 사용한다.
각 heat map의 글로벌 맥스 풀링에 시그모이드를 적용하여 관절 확률을 예측한다.
부분 기반 예측과 맥락 유래 예측을 관절-맥락 확률에 의해 제어되는 가중 합으로 집계한다.
관절 좌표에 대해 Elastic Net 손실을, 관절 존재 확률에 대해 이진 교차 엔트로피 손실로 학습한다.
데이터 증강을 사용하고 MPII에서 학습한 뒤 LSP에서 파인튜닝하며, 중간 감독을 위해 다수의 예측 블록을 활용한다.

실험 결과

연구 질문

RQ1미분 가능한 Soft-argmax가 RGB 이미지에서 2D 관절 좌표로의 엔드-투-엔드 학습을 인위적인 heat-map 그라운드 트루스 없이 가능하게 할 수 있는가?
RQ2부분 기반 맵과 함께 맥락 맵을 도입하는 것이 회귀 기반 포즈 추정 성능을 향상시키는가?
RQ3MPII와 LSP 같은 도전적인 벤치마크에서 회귀 기반 접근법이 최첨단의 검출 기반 방법에 얼마나 근접할 수 있는가?
RQ4중간 감독과 다중 블록 예측이 학습 안정성 및 정확도에 미치는 영향은 무엇인가?
RQ5관절 가시성의 학습된 지표로서 관절 확률이 포즈 추정 향상에 얼마나 효과적인가?

주요 결과

MPII에서 최첨단 검출 방법에 근접한 회귀 기반 포즈 정확도를 달성하고 다른 회귀 방법들을 능가한다.
Soft-argmax는 서브픽셀 정밀도와 미분 가능성을 제공하여 엔드-투-엔드 학습을 가능하게 한다.
맥락 맵과 관절 확률은 포즈 정밀도를 향상시키며, 특히 맥락적 집계(contextual aggregation)를 통해 향상시킨다.
OC 주석하의 LSP에서 PCK와 PCP 지표에서 여러 회귀 기반 방법들을 능가한다.
MPII에서 91.2% 테스트 점수(Single Person 챌린지)에 도달하며, 최상위 검출 기반 방법보다 0.7% 포인트 뒤처진다.
모델은 더 가벼운 네트워크를 사용하면서도 무거운 아키텍처에 버금가는 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.