QUICK REVIEW

[논문 리뷰] Multi-Context Attention for Human Pose Estimation

Xiao Chu, Wei Yang|arXiv (Cornell University)|2017. 02. 24.

Human Pose and Action Recognition인용 수 103

한 줄 요약

CNN 기반 프레임워크는 다중 맥락 주의와 hourglass 잔류 단위를 활용하여 MPII와 LSP에서 인간 자세 추정을 향상시키며, CRFs로 모델링된 전체적 및 부분 중심 주의를 중첩된 hourglass 네트워크 내에서 사용한다.

ABSTRACT

In this paper, we propose to incorporate convolutional neural networks with a multi-context attention mechanism into an end-to-end framework for human pose estimation. We adopt stacked hourglass networks to generate attention maps from features at multiple resolutions with various semantics. The Conditional Random Field (CRF) is utilized to model the correlations among neighboring regions in the attention map. We further combine the holistic attention model, which focuses on the global consistency of the full human body, and the body part attention model, which focuses on the detailed description for different body parts. Hence our model has the ability to focus on different granularity from local salient regions to global semantic-consistent spaces. Additionally, we design novel Hourglass Residual Units (HRUs) to increase the receptive field of the network. These units are extensions of residual units with a side branch incorporating filters with larger receptive fields, hence features with various scales are learned and combined within the HRUs. The effectiveness of the proposed multi-context attention mechanism and the hourglass residual units is evaluated on two widely used human pose estimation benchmarks. Our approach outperforms all existing methods on both benchmarks over all the body parts.

연구 동기 및 목표

가려짐과 혼합된 배경에서도 이미지 의존적 다중 맥락 표현을 활용하여 견고한 인간 자세 추정을 촉진한다.
특징 학습을 안내하기 위한 다중 맥락 주의 메커니즘(다중 해상도, 다중 의미, 계층적 전체-부분)을 제안한다.
세부 정보를 보존하면서 수용 영역을 확장하는 Hourglass Residual Units(HRUs)를 도입하여 중첩된 hourglass 네트워크를 가능하게 한다.
MPII와 LSP에서 최첨단 방법들을 능가하는 엔드 투 엔드로 학습 가능한 아키텍처를 입증한다.

제안 방법

다양한 스케일의 특징으로부터 각 hourglass 스택 내에서 다중 해상도 주의 맵을 생성한다.
표준 잔차 유닛을 수용 영역을 증가시키는 hourglass 분기를 포함하는 Hourglass Residual Units로 교체한다(HRU 공식: x_{n+1}=x_n+F(x_n;W^F_n)+P(x_n;W^P_n)).
가까운 위치 간의 공간적 상관관계를 포착하기 위해 평균장 근사(mean-field approximation)를 사용하는 미분 가능 CRFs를 통해 주의를 모델링한다.
일찍 스택의 로컬 구성과 나중 스택의 글로벌 구성을 포착하기 위해 hourglass 스택 전반에 걸친 다중 의미 주의를 구현한다.
상위 스택에서 계층적 전체-부분 주의를 적용하여 로컬 부분 위치를 정제한다( p번째 부분 주의).
MPII와 LSP에서 바디 파트에 대해 표준 히트맵 회귀 손실(MSE)로 엔드-투-엔드 학습한다.

실험 결과

연구 질문

RQ1CRF 기반 공간 주의 모델이 전통적인 Softmax 기반 주의보다 신체 부위의 위치 추정 정확도를 향상시킬 수 있는가?
RQ2다중 맥락 주의(다중 해상도, 다중 의미, 계층적 전체-부분)가 자세 추정에서 가려짐 및 배경 잡음에 대한 강인성을 향상시키는가?
RQ3Hourglass Residual Units가 디테일 손실 없이 파트 위치 추정을 개선하기 위해 수용 영역을 효과적으로 확장하는가?
RQ4다중 맥 context 주의가 포함된 엔드 투 엔드 학습 가능한 중첩 hourglass 아키텍처가 MPII와 LSP에서 기존 자세 추정 방법들보다 우수한가?
RQ5전체적 및 부분 중심 주의 구성 요소가 부위별 위치 정확도에 어떻게 기여하는가?

주요 결과

방법	머리	어깨	팔꿈치	손목	엉덩이	무릎	발목	평균
Ours (MPII)	98.5	96.3	91.9	88.1	90.6	88.0	85.0	91.5
Prior Best (MPII)	98.2	96.3	91.2	87.1	90.1	87.4	83.6	90.9
Ours (LSP)	98.1	93.7	89.3	86.9	93.4	94.0	92.5	92.6

MPII에서 PCKh@0.5의 최첨단 성능을 달성했으며, 신체 부위별 평균 91.5%를 기록.
MPII에서 이 방법은 까다로운 관절들(손목, 발목)의 성능을 기존 방법들보다 각각 1.0%와 1.4% 향상시켰다.
LSP에서 PCK@0.2의 최첨단 성능과 함께 평균 1.9% 향상을 달성한다.
CRF 기반 주의가 Softmax 주의보다 수렴 속도가 빠르고 검증 정확도를 높인다.
계층적 부분 주의가 평균 PCKh를 89.4%로 더 향상시키며 좌/우 팔다리 구분이 개선되고 중복 계산이 감소한다.
HRUs는 다중 해상도 및 다중 의미 주의와 결합될 때 기준선 대비 약 1%의 추가 이점을 제공한다.
전반적으로 다중 맥 context 주의와 HRU 프레임워크는 가려짐 및 잡다한 배경에서도 견고한 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.