Skip to main content
QUICK REVIEW

[論文レビュー] Human Pose Estimation with Spatial Contextual Information

Hong Zhang, Hao Ouyang|arXiv (Cornell University)|Jan 7, 2019
Human Pose and Action Recognition参考文献 54被引用数 63
ひとこと要約

本論文は Cascade Prediction Fusion (CPF) と Pose Graph Neural Network (PGNN) を導入し、空間的文脈情報を人間の姿勢推定に活用する。MPII と LSP において最小限の追加計算で最先端の結果を達成する。

ABSTRACT

We explore the importance of spatial contextual information in human pose estimation. Most state-of-the-art pose networks are trained in a multi-stage manner and produce several auxiliary predictions for deep supervision. With this principle, we present two conceptually simple and yet computational efficient modules, namely Cascade Prediction Fusion (CPF) and Pose Graph Neural Network (PGNN), to exploit underlying contextual information. Cascade prediction fusion accumulates prediction maps from previous stages to extract informative signals. The resulting maps also function as a prior to guide prediction at following stages. To promote spatial correlation among joints, our PGNN learns a structured representation of human pose as a graph. Direct message passing between different joints is enabled and spatial relation is captured. These two modules require very limited computational complexity. Experimental results demonstrate that our method consistently outperforms previous methods on MPII and LSP benchmark.

研究の動機と目的

  • 姿勢推定における空間的文脈情報の重要性を動機づける。
  • 補助段の予測と関節関係を活用する軽量なモジュールを提案する。
  • CPF と PGNN を一般的な姿勢ネットワーク内でエンドツーエンドで訓練可能にする。
  • MPII と LSP で計算オーバーヘッドを抑えつつ精度を改善する。

提案手法

  • Cascade Prediction Fusion (CPF): 以前の段階からの補助予測を priors として段階的に統合し、後段の予測を導く。
  • PGNN (Pose Graph Neural Network): 関節をグラフノードとしてモデル化し、エッジベースのメッセージ伝搬で空間関係を捉える。
  • Graph construction: nodes for joints; edges encode neighboring joint relations; supports tree and loopy graph structures.
  • Update mechanism: parallel node updates using a gated GRU-like update (no shared edge weights); combines new messages with memory.
  • Training: end-to-end via L2 loss on predicted maps; uses BPTT for temporal extension risk, with an emphasis on spatial structure learning.
  • Backbone compatibility: applies CPF and PGNN to ResNet-50 (modified with FPN and dilated convs) and Hourglass backbones.

実験結果

リサーチクエスチョン

  • RQ1CPF による空間的文脈情報を組み込むことで、姿勢推定段階間の洗練化がどのように向上するのか?
  • RQ2グラフベースのニューラルネットワーク(PGNN)は、関節間の空間関係を効果的にモデル化・伝搬して局在化を改善できるか?
  • RQ3CPF と PGNN は MPII および LSP の異なるバックボーンネットワーク間で一貫した性能向上を提供するか?

主な発見

方法頭部手首足首平均
Pishchulin et al. [36]74.349.040.834.136.534.435.244.1
Tompson et al. [46]95.890.380.574.377.669.762.879.6
Carreira et al. [5]95.791.781.772.482.873.266.481.3
Tompson et al. [45]96.191.983.977.880.972.364.882.0
Hu & Ramanan [21]95.091.683.076.681.974.569.582.4
Pishchulin et al. [37]94.190.283.477.382.675.768.682.4
Lifshitz et al. [29]97.893.385.780.485.376.670.285.0
Gkioxari et al. [18]96.293.186.782.185.281.474.186.1
Rafi et al. [39]97.293.986.481.386.880.673.486.3
Insafutdinov et al. [23]96.895.289.384.488.483.478.088.5
Wei et al. [50]97.895.088.784.088.482.879.488.5
Chu et al. [13]98.596.391.988.190.688.085.091.5
Chou et al. [10]98.296.892.288.091.389.184.991.8
Chen et al. [7]98.196.592.588.590.289.686.091.9
Yang et al. [52]98.596.792.588.791.188.686.092.0
Newell et al. [35]98.296.391.287.190.187.483.690.9
ResNet-ours98.296.491.687.191.288.083.691.2
Hg-ours98.697.092.888.891.789.886.692.5
  • CPF は以前の段階の予測を情報として用いることで、後段の予測に有意な改善をもたらす。
  • PGNN は関節間の直接的なメッセージ伝搬と構造化された空間関係の学習を可能にし、追加のゲインを提供する。
  • CPF と PGNN の組み合わせは MPII の PCKh@0.5 および LSP で新たな状態を達成し、最小限のパラメータと FLOP オーバーヘッドで競争力のある結果を示す。
  • 木構造型およびルーピーなPGNN構造は、グラフトポロジーに対する頑健性を示し、改善効果は類似。
  • 伝搬ステップは小さな回数(T≈3)以降で効果が逓減し、最初の2ステップが精度向上に最も寄与。
  • Backbone 実験では ResNet-50 と Hourglass の両方が CPF と PGNN の恩恵を受け、Hourglass は MPII で 92.5% PCKh に到達。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。