Skip to main content
QUICK REVIEW

[논문 리뷰] Human Pose Estimation with Spatial Contextual Information

Hong Zhang, Hao Ouyang|arXiv (Cornell University)|2019. 01. 07.
Human Pose and Action Recognition참고 문헌 54인용 수 63
한 줄 요약

논문은 Cascade Prediction Fusion (CPF)와 Pose Graph Neural Network (PGNN)를 제시하여 인간 자세 추정에 공간 맥락 정보를 활용하고 MPII와 LSP에서 추가 계산 없이 최첨단 성능을 달성한다.

ABSTRACT

We explore the importance of spatial contextual information in human pose estimation. Most state-of-the-art pose networks are trained in a multi-stage manner and produce several auxiliary predictions for deep supervision. With this principle, we present two conceptually simple and yet computational efficient modules, namely Cascade Prediction Fusion (CPF) and Pose Graph Neural Network (PGNN), to exploit underlying contextual information. Cascade prediction fusion accumulates prediction maps from previous stages to extract informative signals. The resulting maps also function as a prior to guide prediction at following stages. To promote spatial correlation among joints, our PGNN learns a structured representation of human pose as a graph. Direct message passing between different joints is enabled and spatial relation is captured. These two modules require very limited computational complexity. Experimental results demonstrate that our method consistently outperforms previous methods on MPII and LSP benchmark.

연구 동기 및 목표

  • 포즈 추정에서 공간 맥락 정보의 중요성을 동기 부여한다.
  • 보조 스테이지 예측 및 관절 관계를 활용하기 위한 경량 모듈을 제안한다.
  • CPF와 PGNN의 엔드투 엔드 학습 가능성을 일반적인 포즈 네트워크에서 보여준다.
  • 제한된 계산 오버헤드로 MPII와 LSP에서 정확도를 개선한다.

제안 방법

  • Cascade Prediction Fusion (CPF): 초기 스테이지의 보조 예측을 점진적으로 프라이어로 융합하여 후속 스테이지 예측을 안내한다.
  • PGNN (Pose Graph Neural Network): 관절을 간선 기반 메시지 전달을 통해 공간 관계를 포착하는 그래프 노드로 모델링한다.
  • 그래프 구성: 노드는 관절; 간선은 이웃 관절 관계를 인코딩; 트리 및 루피 그래프 구조를 지원한다.
  • 업데이트 메커니즘: 에지 가중치를 공유하지 않는 게이트드 GRU 유사 업데이트를 사용한 병렬 노드 업데이트; 새로운 메시지와 기억(memory)를 결합한다.
  • 훈련: 예측 맵에 대한 L2 손실로 엔드-투-엔드; 시간 확장을 위한 BPTT를 사용하되 공간 구조 학습에 중점을 둔다.
  • Backbone 호환성: CPF와 PGNN을 ResNet-50 (FPN 및 dilation conv로 수정) 및 Hourglass 백본에 적용한다.

실험 결과

연구 질문

  • RQ1CPF를 통한 공간 맥락 정보를 도입해 자세 추정 스테이지 간 정교화를 어떻게 개선하는가?
  • RQ2그래프 기반 신경망(PGNN)이 관절 간 공간 관계를 효과적으로 모델링하고 전파하여 위치 추정을 개선할 수 있는가?
  • RQ3MPII와 LSP에서 서로 다른 백본 네트워크에 대해 CPF와 PGNN가 일관된 성능 향상을 제공하는가?

주요 결과

방법헤드어깨팔꿈치손목엉덩이무릎발목평균
Pishchulin et al. [36]74.349.040.834.136.534.435.244.1
Tompson et al. [46]95.890.380.574.377.669.762.879.6
Carreira et al. [5]95.791.781.772.482.873.266.481.3
Tompson et al. [45]96.191.983.977.880.972.364.882.0
Hu & Ramanan [21]95.091.683.076.681.974.569.582.4
Pishchulin et al. [37]94.190.283.477.382.675.768.682.4
Lifshitz et al. [29]97.893.385.780.485.376.670.285.0
Gkioxari et al. [18]96.293.186.782.185.281.474.186.1
Rafi et al. [39]97.293.986.481.386.880.673.486.3
Insafutdinov et al. [23]96.895.289.384.488.483.478.088.5
Wei et al. [50]97.895.088.784.088.482.879.488.5
Chu et al. [13]98.596.391.988.190.688.085.091.5
Chou et al. [10]98.296.892.288.091.389.184.991.8
Chen et al. [7]98.196.592.588.590.289.686.091.9
Yang et al. [52]98.596.792.588.791.188.686.092.0
Newell et al. [35]98.296.391.287.190.187.483.690.9
ResNet-ours98.296.491.687.191.288.083.691.2
Hg-ours98.697.092.888.891.789.886.692.5
  • CPF는 초기 스테이지 예측을 사용하여 이후 스테이지 예측에 정보를 제공함으로써 측정 가능한 개선을 가져온다.
  • PGNN은 관절 간 직접 메시지 전달과 구조화된 공간 관계 학습을 통해 추가 이득을 제공한다.
  • CPF와 PGNN의 조합은 MPII의 PCKh@0.5에서 새로운 최첨단 성능을 달성하고 LSP에서 최소한의 매개변수 및 FLOP 오버헤드로 경쟁력 있는 결과를 보여준다.
  • 트리형 및 루피 PGNN 구조 모두 비슷한 개선을 보여 그래프 토폴로지에 대한 강건성을 시사한다.
  • 전파 단계는 작은 수(T≈3) 이후 감소하는 수익을 보이며, 처음 두 단계가 정확도에 가장 크게 기여한다.
  • 백본 실험에서 ResNet-50과 Hourglass 모두 CPF와 PGNN의 이점을 보이며, Hourglass는 MPII에서 92.5% PCKh에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.