Skip to main content
QUICK REVIEW

[論文レビュー] RMPE: Regional Multi-person Pose Estimation

Hao-Shu Fang, Shuqin Xie|arXiv (Cornell University)|Dec 1, 2016
Human Pose and Action Recognition参考文献 37被引用数 61
ひとこと要約

本稿では、不正確な人体バウンディングボックス下でも単一人物ポーズ推定器(SPPE)の性能を向上させるための、領域的マルチペルソンポーズ推定フレームワークRMPEを提案する。対称的空間変換ネットワーク(SSTN)、パラメトリックPose NMS、およびポーズガイドドプロポーザルジェネレータ(PGPG)を統合することで、RMPEはMPIIマルチペルソンデータセットで76.7 mAPを達成し、従来手法を顕著に上回り、局所化誤差や重複検出に対しても耐性を持つ。

ABSTRACT

Multi-person pose estimation in the wild is challenging. Although state-of-the-art human detectors have demonstrated good performance, small errors in localization and recognition are inevitable. These errors can cause failures for a single-person pose estimator (SPPE), especially for methods that solely depend on human detection results. In this paper, we propose a novel regional multi-person pose estimation (RMPE) framework to facilitate pose estimation in the presence of inaccurate human bounding boxes. Our framework consists of three components: Symmetric Spatial Transformer Network (SSTN), Parametric Pose Non-Maximum-Suppression (NMS), and Pose-Guided Proposals Generator (PGPG). Our method is able to handle inaccurate bounding boxes and redundant detections, allowing it to achieve a 17% increase in mAP over the state-of-the-art methods on the MPII (multi person) dataset.Our model and source codes are publicly available.

研究の動機と目的

  • マルチペルソンシーンにおける不正確または重複する人体バウンディングボックスに対して脆弱な単一人物ポーズ推定器(SPPE)の課題に対処すること。
  • ポーズ推定の精度が人体検出器の品質に強く依存する二段階フレームワークの限界を克服すること。
  • 混雑したシーンにおける重なりや誤位罫の人物に起因する誤検出やポーズの曖昧さを低減すること。
  • ポーズガイドドプロポーザルジェネレータを用いたデータ拡張により、トレーニングデータの多様性を向上させ、モデルの一般化性能を向上させること。
  • 手動で設定されたしきい値に依存せず、効率的で学習可能なポーズNMS機構を構築すること。

提案手法

  • 不正確なバウンディングボックスからの特徴抽出を改善・安定化させるために、並列なSPPEブランチを備えた対称的空間変換ネットワーク(SSTN)を導入する。
  • ポーズ距離メトリクスを学習するパラメトリックPose非最大抑制(NMS)モジュールを設計し、重複するポーズ予測を比較・削除する。
  • ポーズを条件として人体プロポーザルの条件付き分布をモデル化するポーズガイドドプロポーザルジェネレータ(PGPG)を提案し、現実的な合成トレーニングサンプルを用いたデータ拡張を可能にする。
  • PGPGで生成された合成データを用いてSSTN+SPPEモジュールを訓練することで、局所化誤差に対する耐性を向上させる。
  • 微分可能な損失関数を最適化することで、データから最適な抑制しきい値を学習するパラメトリックポーズNMSを最適化する。
  • すべてのモジュールをエンドツーエンドで学習可能なパイプラインに統合し、現実の検出誤差下でもSPPEの性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1バウンディングボックスが不正確または重複している状況下でも、領域的ポーズ推定フレームワークがSPPEの性能を向上させられるか?
  • RQ2従来のNMSと比較して、学習可能なポーズに依存するNMS機構は、重複するポーズ予測の低減にどの程度有効か?
  • RQ3データ駆動型プロポーザルジェネレータは、モデルの一般化性能と検出誤差に対する耐性をどの程度向上できるか?
  • RQ4対称的空間変換と並列SPPEによる補助的監視を統合することで、局所化ノイズ下でも特徴品質が向上するか?
  • RQ5グランドトゥルースプロポーザルを使用した場合、二段階フレームワークは理論的上限性能にどの程度近づけるか?

主な発見

  • RMPEはMPIIマルチペルソンデータセットで76.7 mAPを達成し、同じ評価プロトコル下で最先端手法を顕著に上回った。
  • アブレーションスタディの結果、パラメトリックPose NMSを削除するとmAPが著しく低下し、重複検出の低減におけるその重要性が確認された。
  • ポーズガイドドプロポーザルジェネレータ(PGPG)はトレーニングデータの品質を向上させ、データ拡張を削除するとmAPが73.0%に低下した。
  • 並列SPPEブランチを備えた対称的STNは特徴学習を向上させ、並列ブランチを削除すると性能が低下し、訓練の安定化に寄与していることが示された。
  • グランドトゥルースバウンディングボックスを使用した場合、RMPEは84.2% mAPを達成し、二段階パラダイムの理論的上限に近い性能を示した。
  • 提案されたパラメトリックNMSは、先行する最先端実装(1,300枚の画像で1.8秒対62.2秒)よりも34.6倍高速であり、高い効率性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。