QUICK REVIEW

[論文レビュー] DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation

Leonid Pishchulin, Eldar Insafutdinov|arXiv (Cornell University)|Nov 20, 2015

Human Pose and Action Recognition参考文献 3被引用数 33

ひとこと要約

この論文は、人体部の仮説に対して整数線形計画法（ILP）を用いて、人物の検出とポーズ推定を同時に解く統合的定式化であるDeepCutを提案する。部品検出、グループ化、隠蔽の推論を統合的にモデル化することで、複数のデータセットで最先端の性能を達成し、重なりや隠蔽がある状況でも、2段階手法よりも優れた性能を発揮する。

ABSTRACT

This paper considers the task of articulated human pose estimation of multiple people in real world images. We propose an approach that jointly solves the tasks of detection and pose estimation: it infers the number of persons in a scene, identifies occluded body parts, and disambiguates body parts between people in close proximity of each other. This joint formulation is in contrast to previous strategies, that address the problem by first detecting people and subsequently estimating their body pose. We propose a partitioning and labeling formulation of a set of body-part hypotheses generated with CNN-based part detectors. Our formulation, an instance of an integer linear program, implicitly performs non-maximum suppression on the set of part candidates and groups them to form configurations of body parts respecting geometric and appearance constraints. Experiments on four different datasets demonstrate state-of-the-art results for both single person and multi person pose estimation. Models and code available at http://pose.mpi-inf.mpg.de.

研究の動機と目的

人物を最初に検出する2段階的手法の制限を解決すること。特に、人物が近接している、または重なっている場合には失敗する点を改善する。
人物の数を同時に推定し、人体部の検出結果を個々の人物に割り当て、重なったり隠蔽されたりした人体部の曖昧さを解消すること。
人体部間の幾何的・外観的制約をモデル化し、一貫性のあるポーズ構成を形成すること。
非最大抑制を暗黙的に行い、切断や隠蔽に対処するために、部品仮説を無効化または統合すること。

提案手法

畳み込みニューラルネットワーク（CNN）を用いた部品検出器により、人体部の仮説の集合を生成し、それぞれの検出結果をグラフ上の候補ノードとして扱う。
問題を整数線形計画法（ILP）として定式化し、部品候補の集合を、互いに一貫性を持つ人物固有の構成に分割・ラベル付けする。
ILPのペairwise項により一貫性を強制する：同じ部品（c = c'）の項は、同じ人体部の複数の検出結果を同一人物にグループ化し、異なる部品（c ≠ c'）の項は、人物間の部品を接続する。
ILP定式化により、グローバルな証拠に基づいて、重複または矛盾する部品検出結果を統合または無効化することで、暗黙的な非最大抑制が可能になる。
人物の数を、人物固有の部品仮説のグループ化によって暗黙的に推定し、事前の人物検出を必要としない。
最適化には分枝限定法（branch-and-bound）を用い、保証された最適性ギャップを達成することで、問題がNP困難であるにもかかわらず信頼できる推論が可能になる。

実験結果

リサーチクエスチョン

RQ12段階手法よりも、混雑したシーンにおいて、人物数、部品位置、ポーズ構成を統合的に推定する定式化は、より効果的か？
RQ2隠蔽や切断に対処しながら、部品仮説を一貫性があり重複のない人物固有のポーズ構成にグループ化する方法は何か？
RQ3各人体部の局所的抑制ではなく、全人体部からのグローバルな証拠を用いることで、非最大抑制はどの程度改善できるか？
RQ4独立したポーズ推定と比較して、統合最適化フレームワークは、重なった人物や曖昧な部品割り当てに対して、より頑健に処理できるか？
RQ5グリーディーや逐次的手法と比較して、ILPに基づく定式化は、正確性と一貫性の面でどの程度優れているか？

主な発見

DeepCutは、4つの異なるデータセットにおいて、単体人物および複数人ポーズ推定ベンチマークで最先端の性能を達成した。
Dense-CNN det ROIなどの2段階的手法よりも、隠蔽、重なった人物、曖昧な部品割り当ての処理において顕著に優れた性能を示した。
定性的な結果から、DeepCutは隠蔽された人体部（例：隠れた腕や肩）を正しく予測し、異なる人物間の部品を結びつけるのを避けることが確認された。
グローバルな一貫性に基づいて、冗長または矛盾する部品検出結果を無効化することで、暗黙的な非最大抑制を効果的に実行した。
複数の重なった人物がいる複雑なシーンにおいても、事前の人物検出を必要とせず、画像内の人物数を正しく推定できた。
失敗事例は稀であり、主に部品検出の候補が欠落していることが原因であり、グループ化の誤りによるものではないため、検出誤差に対して頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。