Skip to main content
QUICK REVIEW

[論文レビュー] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

Zhe Cao, Tomas Simon|arXiv (Cornell University)|Nov 24, 2016
Human Pose and Action Recognition参考文献 32被引用数 102
ひとこと要約

この論文は Part Affinity Fields (PAFs) を導入します。ボトムアップ CNN が body part confidence maps と limb affinity fields を共同で予測し、貪欲なパース段階でリアルタイムの多人数2Dポーズ推定を実現します。効率的な実行時間は人数に依存せず、MPII および COCO ベンチマークで最先端の精度を達成します。

ABSTRACT

We present an approach to efficiently detect the 2D pose of multiple people in an image. The approach uses a nonparametric representation, which we refer to as Part Affinity Fields (PAFs), to learn to associate body parts with individuals in the image. The architecture encodes global context, allowing a greedy bottom-up parsing step that maintains high accuracy while achieving realtime performance, irrespective of the number of people in the image. The architecture is designed to jointly learn part locations and their association via two branches of the same sequential prediction process. Our method placed first in the inaugural COCO 2016 keypoints challenge, and significantly exceeds the previous state-of-the-art result on the MPII Multi-Person benchmark, both in performance and efficiency.

研究の動機と目的

  • 1) 単一の画像内で人を検出器なしに複数の2Dポーズを推定する。
  • 2) 体の部位の位置と肢の関連を同時に学習してグローバルな文脈を保つ。
  • 3) 画像コンテンツの量ではなく人数に依存せずスケールする高速なパースを実現する。

提案手法

  • Two-branch CNN は body parts の confidence maps と Part Affinity Fields (PAFs) を予測して肢の向きを符号化する。
  • 多段階アーキテクチャで両ブランチの反復的改良と中間監視を行う。
  • PAFs 上の直線積分を用いた貪欲パースで候補となる肢をスコアリングし全身ポーズを組み立てる。
  • 最小全域木ベースのパースを肢タイプごとの二部マッチングで行い、完全連結グラフより効率を向上させる。
  • unlabeled regions を扱うための空間マスキングを用いた損失関数とステージごとの監視(S と L のL2損失)。
  • パーシング前に confidence maps に対して非極大抑制を使用して部位候補を生成する。

実験結果

リサーチクエスチョン

  • RQ1部位検出と部位間の関連づけを共同学習して堅牢な多人数ポーズパースを実現できるか。
  • RQ2グローバルな肢親和場を用いたボトムアップ手法でリアルタイム性能を達成しつつ、難易度の高いデータセットで高精度を維持できるか。
  • RQ3部分候補から正しいポーズを効率的に組み立てるためにどのパース戦略が十分か。
  • RQ4肢の向きを PAFs でモデリングすることと単純な中点ベースの関連付けの影響はどうなるか。
  • RQ5MPII および COCO ベンチマークにおける本手法の性能は従来のボトムアップおよびトップダウン手法と比較してどうか。

主な発見

  • PAFs は肢の関連付けのための堅牢な位置情報と向きの表現を提供し、複数人の正確なパースを可能にする。
  • 提案する二分岐・多段階 CNN は MPII および COCO ベンチマークで最先端の mAP を達成し、これまでのボトムアップ手法を上回る。
  • PAFs を用いた貪欲で木構造のパースは、完全グラフ最適化よりも桁違いに速く、高精度を維持する。
  • 実行時の解析では、手法は人数ではなく画像の内容にスケールし、実験では19人のビデオで 8.8 fps を達成する。
  • 未ラベルの人をマスクで学習することで注釈の欠落に対するペナルティを減らし精度を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。