QUICK REVIEW

[論文レビュー] DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model

Eldar Insafutdinov, Leonid Pishchulin|arXiv (Cornell University)|May 10, 2016

Human Pose and Action Recognition参考文献 12被引用数 115

ひとこと要約

DeeperCut は、1) 深く、強力な身体部位検出器を用い、2) 部位を組み立てるための画像条件付きペアワイズ項、3) 推論を劇的に高速化しつつ精度を改善する incremental optimization strategy により、マルチパーソン姿勢推定を進化させます。

ABSTRACT

The goal of this paper is to advance the state-of-the-art of articulated pose estimation in scenes with multiple people. To that end we contribute on three fronts. We propose (1) improved body part detectors that generate effective bottom-up proposals for body parts; (2) novel image-conditioned pairwise terms that allow to assemble the proposals into a variable number of consistent body part configurations; and (3) an incremental optimization strategy that explores the search space more efficiently thus leading both to better performance and significant speed-up factors. Evaluation is done on two single-person and two multi-person pose estimation benchmarks. The proposed approach significantly outperforms best known multi-person pose estimation results while demonstrating competitive performance on the task of single person pose estimation. Models and code available at http://pose.mpi-inf.mpg.de

研究の動機と目的

ディープラーニングを用いて身体部位検出を改善し、高品質な bottom-up 提案を生成する。
混雑した場面で身体部位を正しく姿勢へ組み立てるため、画像条件付きのペアワイズ項を導入する。
精度を犠牲にすることなく推論を大幅に高速化するための逐次的最適化戦略を開発する。
単一人物および複数人物の姿勢ベンチマークで最先端の性能を実証する。

提案手法

非常に深い残差ネットワーク（ResNet）ベースの部位検出器を用い、完全畳み込みアーキテクチャで身体部位のスコアマップを生成する。
8 px の細粒度ストライドを維持するようResNetを適応させ、部位定位のためにデコンボリューション/ホールを用いて空間解像度を回復する。
勾配の流れと空間的識別性を改善するため、conv4ブロック内に部位損失レイヤを追加して中間監視を組み込む。
各部位位置から他の関節の相対位置へ回帰する、画像条件付きペアワイズ項モデルを訓練し、ペアワイズコストをロジスティックモデル p(z=1|f, ω) によって計算する特徴量を生成する。
CNN 予測オフセットと実際の部位間オフセットを比較して、前方・後方の方向と角度項を含むペアワイズコストを計算する。
複数の小さなインスタンスを順次解く incremental branch-and-cut ILP ソルバーを用いて、全体の身体部位選択と個別の人物へのクラスタリングを最適化する。

実験結果

リサーチクエスチョン

RQ1より深い部位検出器は単一人物および複数人物の姿勢推定性能にどのような影響を与えるか？
RQ2混雑した場面で、画像条件付きペアワイズ項は身体部位仮説を一貫した複数人物の姿勢へ効果的にグループ化することができるか？
RQ3複数人物設定での推論時間を削減しつつ、姿勢精度を維持または向上させる incremental optimization strategy は機能するか？

主な発見

非常に深い ResNet をベースとする部位検出器は、LSPおよびMPIIベンチマークで最先端のPCK/AUCを達成し、中間監視によってさらなる向上を提供する。
画像条件付きペアワイズ項は複数人体の姿勢APを著しく改善し、実行時間を劇的に削減する（例：ある比較で 259,220 s/frame から 1,987 s/frame へ）。
角度特徴を伴う双方向ペアワイズ項は、アブレーション研究で最高のAP（52.6% AP）と最も低い実行時間（578 s/frame）をもたらす。
Incremental optimization（3段階）は、APを57.6%に、中央値実行時間を271 s/frameへ削減し、単一段階のベースラインと比較して改善。
DeeperCut は基線の DeepCut および強力な2段階ベースラインを上回り、桁違いの実行時間短縮を実現する。
MPII Multi-Person では、incremental optimization を適用した DeeperCut が、サブセットデータで 69.7% AP、全データで 59.4% AP を達成し、実行時間を大幅に削減した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。