Skip to main content
QUICK REVIEW

[論文レビュー] Adversarial PoseNet: A Structure-aware Convolutional Network for Human Pose Estimation

Yu Chen, Chunhua Shen|arXiv (Cornell University)|Apr 30, 2017
Human Pose and Action Recognition参考文献 32被引用数 60
ひとこと要約

Adversarial PoseNetを導入。構造認識型GANフレームワークで、マルチタスクジェネレータと二つのディスcriminatorを用いて人体 priors を強制し、遮蔽と混雑下での姿勢推定を改善。LSPとMPIIで最先端。

ABSTRACT

For human pose estimation in monocular images, joint occlusions and overlapping upon human bodies often result in deviated pose predictions. Under these circumstances, biologically implausible pose predictions may be produced. In contrast, human vision is able to predict poses by exploiting geometric constraints of joint inter-connectivity. To address the problem by incorporating priors about the structure of human bodies, we propose a novel structure-aware convolutional network to implicitly take such priors into account during training of the deep network. Explicit learning of such constraints is typically challenging. Instead, we design discriminators to distinguish the real poses from the fake ones (such as biologically implausible ones). If the pose generator (G) generates results that the discriminator fails to distinguish from real ones, the network successfully learns the priors.

研究の動機と目的

  • 遮蔽や混雑下で不自然な予測を減らすために、人間の体の構造的ジオメトリ priors を姿勢推定に組み込む。
  • 明示的な制約モデル化ではなく、敵対的学習を通じて事前情報を暗黙的に学習する。
  • 頑健性を高めるため、姿勢ヒートマップと遮蔽マップの両方を予測するスタック型マルチタスクジェネレータを開発。
  • 姿勢ディスcriminatorと信頼度ディスcriminatorを用いて妥当性と予測信頼性を担保。
  • 公開データセット上で最先端手法を上回る改善を示す。

提案手法

  • RGB入力から姿勢ヒートマップと遮蔽ヒートマップを出力するマルチタスク生成ネットワーク G。
  • 姿勢ディスcriminator P は局所情報と全体情報の両方を用いて、予測された姿勢が幾何学的に妥当かを評価。
  • 信頼度ディスcriminator C は予測ヒートマップの信頼性を評価。
  • 条件付き GAN フレームワークに従い、L2 監督項を組み合わせ、L_G を G に関して最小化し、Pと C からの敵対項を最大化する形で L = arg min_G max_{P,C} L_G + alpha L_C + beta L_P。
  • 予測を再評価できるように G はスタックされ、スキップ接続と残差ブロックを備えたエンコーダ-デコーダを使用。
  • P と C の真偽ラベルは ground truth への近接度と信頼度を反映するように定義され、姿勢部位には閾値処理された fake ラベルを用いる。

実験結果

リサーチクエスチョン

  • RQ1構造認識型の GAN ベースフレームワークは、遮蔽や個人間遮蔽下での姿勢推定の妥当性を向上させるか?
  • RQ2マルチタスク生成を介して遮蔽情報を組み込むことで、姿勢の精度と信頼性は向上するか?
  • RQ3姿勢ディスcriminatorと信頼度ディスcriminatorは、生物学的な姿勢プリオリティと頑健なヒートマップ予測を共同で担保するか?

主な発見

MethodsHeadSho.Elb.Wri.HipKneeAnk.Mean
Ours98.594.089.887.593.994.193.093.1
  • LSP で平均 PCK@0.2 が 93.1% に達し、全関節で従来手法を上回る。
  • MPII で平均 PCKh@0.5 が 92.1% に達し、手首と足首で顕著な改善(例:手首 88.6 vs baselines の 84.x)。
  • マルチタスク生成と双方のディスcriminator の組み合わせが最も大きな精度向上をもたらす(MPII の mean PCKh で最大 1.5%)。
  • 遮蔽下でより妥当な姿勢を得られ、信頼度ヒートマップが高く、Gaussian 中心予測が鮮明。
  • 定性的結果では、Hourglass ベースラインと比較して不自然な姿勢の低減と遮蔽・ねじれた四肢の扱いが改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。