QUICK REVIEW

[論文レビュー] Single-Stage Multi-Person Pose Machines

Xuecheng Nie, Jianfeng Zhang|arXiv (Cornell University)|Aug 24, 2019

Human Pose and Action Recognition参考文献 35被引用数 26

ひとこと要約

本論文では、根関節とその相対的なずれを用いて人物インスタンスと関節位置を統合的に表現する、新しい構造的ポーズ表現（SPR）を用いた、2次元／3次元ポーズ推定のための最初の1段階モデルである単一段階多人数ポーズマシン（SPM）を提案する。SPMは、先行手法と比較して8倍高速な推論速度（8× faster）を達成しながら、MPII、COCO、CMU Panopticベンチマークで競争力ある精度を維持し、性能を犠牲にすることなく優れた効率性を示している。

ABSTRACT

Multi-person pose estimation is a challenging problem. Existing methods are mostly two-stage based--one stage for proposal generation and the other for allocating poses to corresponding persons. However, such two-stage methods generally suffer low efficiency. In this work, we present the first single-stage model, Single-stage multi-person Pose Machine (SPM), to simplify the pipeline and lift the efficiency for multi-person pose estimation. To achieve this, we propose a novel Structured Pose Representation (SPR) that unifies person instance and body joint position representations. Based on SPR, we develop the SPM model that can directly predict structured poses for multiple persons in a single stage, and thus offer a more compact pipeline and attractive efficiency advantage over two-stage methods. In particular, SPR introduces the root joints to indicate different person instances and human body joint positions are encoded into their displacements w.r.t. the roots. To better predict long-range displacements for some joints, SPR is further extended to hierarchical representations. Based on SPR, SPM can efficiently perform multi-person poses estimation by simultaneously predicting root joints (location of instances) and body joint displacements via CNNs. Moreover, to demonstrate the generality of SPM, we also apply it to multi-person 3D pose estimation. Comprehensive experiments on benchmarks MPII, extended PASCAL-Person-Part, MSCOCO and CMU Panoptic clearly demonstrate the state-of-the-art efficiency of SPM for multi-person 2D/3D pose estimation, together with outstanding accuracy.

研究の動機と目的

人物検出とキーポoint回帰の2段階に分けられる従来の多人数ポーズ推定手法の非効率性を是正すること。
人物インスタンスの局所化とボディ関節の予測を1つのエンドツーエンドパイプラインに統合し、計算上の重複を低減すること。
根関節からの相対的な関節位置を符号化することで、1段階推論を可能にする新しいポーズ表現を開発すること。
関節の連鎖に沿って長距離のずれを段階的な短距離ずれに分解することで、骨格的構造をよりよくモデル化する階層的SPRを考案すること。
単一RGB画像からの2次元および3次元多人数ポーズ推定に、高い効率性を示す一般化可能なアプローチを実証すること。

提案手法

各人物インスタンスを根関節とし、すべてのボディ関節をその根関節からの2次元または3次元のずれとして符号化する、構造的ポーズ表現（SPR）を提案する。
骨格的連鎖に沿って長距離のずれを段階的な短距離ずれに分解することで、回帰精度を向上させる階層的SPRのバリエーションを設計する。
特にHourglassネットワークを改変したCNNベースのアーキテクチャを用いて、SPMモデルを実装し、1回の順伝播で根関節位置とずれベクトルを同時に回帰する。
2次元および3次元ポーズ推定の両方のタスクに適応するマルチタスク損失を用いて、エンドツーエンドでモデルを訓練する。
CMU Panopticから得た3次元キーポイントアノテーションを用いて、3次元空間へのずれ表現を拡張し、3次元ポーズ推定に適応する。
MPII、PASCAL-Person-Part、COCO、CMU Panopticデータセットに対して、データオーグメンテーションおよび標準的なトレーニングプロトコルを適用し、ロバスト性と一般化性能を確保する。

実験結果

リサーチクエスチョン

RQ12段階手法と比較して、大幅に高速化された推論速度を達成しながら、多人数2次元ポーズ推定で競争力ある精度を実現できる1段階ディープラーニングモデルは存在するか？
RQ2根関節からの相対的関節位置符号化を特徴とする構造的ポーズ表現は、エンドツーエンドの1段階推論を可能にするのにどの程度有効か？
RQ3階層的SPRは、モデルの複雑さを増さずに長距離関節ずれのモデル化を改善できるか？
RQ4提案されたSPMフレームワークは、単一RGB画像からの3次元多人数ポーズ推定に効果的に一般化できるか？
RQ5最先端の2段階モデルと比較して、1段階アプローチを用いる際の速度と精度のトレードオフはどのようなものか？

主な発見

拡張されたPASCAL-Person-Partデータセットにおいて、SPMは46.1%のmAPを達成し、このベンチマークで新たな最先端の精度を樹立した。
MSCOCOテストデベロップセットでは、SPMは0.669のAPを達成し、SOTAの0.687をわずかに下回るが、1枚あたり0.058秒という8倍高速な推論速度（8× faster）を実現した。
CMU Panopticデータセットにおける多人数3次元ポーズ推定では、SPMは77.8%の3D-PCKを達成し、大規模な3次元ベンチマークで強力な性能を示した。
CMU Panopticデータセットでは約20FPSで実行され、単一RGB画像からの3次元ポーズ推定において高い効率性を示した。
定性的な結果から、遮蔽、スケール変動、重なった人物の状況においてもロバストであることが確認され、困難な状況下でも一般化性能が確認された。
階層的SPRバリエーションは、計算コストを増加させることなく、長距離ずれのモデル化を効果的に改善した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。