QUICK REVIEW

[論文レビュー] Human Pose Estimation using Deep Consensus Voting

Ita Lifshitz, Ethan Fetaya|arXiv (Cornell University)|Mar 27, 2016

Human Pose and Action Recognition参考文献 17被引用数 30

ひとこと要約

本稿では、1枚の画像から人体ポーズ推定を行うためのディープコンSENSサス投票フレームワークを提案する。各画像パッチがキーポoinの位置を直接検出するのではなく、すべてのキーポイント位置に対して投票を行う。投票を集約し、コンセンサスに基づく関節確率を計算することで、精度が向上し、MPIIではヘッドキーポイントでSOTA性能を達成し、LSPでも競争力ある結果を示す。固定のグラフィカルモデルに依存せずに、画像依存のパーツ関係を自然にモデル化できる。

ABSTRACT

In this paper we consider the problem of human pose estimation from a single still image. We propose a novel approach where each location in the image votes for the position of each keypoint using a convolutional neural net. The voting scheme allows us to utilize information from the whole image, rather than rely on a sparse set of keypoint locations. Using dense, multi-target votes, not only produces good keypoint predictions, but also enables us to compute image-dependent joint keypoint probabilities by looking at consensus voting. This differs from most previous methods where joint probabilities are learned from relative keypoint locations and are independent of the image. We finally combine the keypoints votes and joint probabilities in order to identify the optimal pose configuration. We show our competitive performance on the MPII Human Pose and Leeds Sports Pose datasets.

研究の動機と目的

キーポイント検出ベースのポーズ推定における限界、例えば疎な特徴の利用と固定された、データに依存しないパーツ関係を解消すること。
すべての画像領域から得られる密度的で多ターゲットの投票を活用することで、遮蔽や変動に強いポーズ推定を実現すること。
固定された相対位置統計に依存せず、コンセンサス投票を通じて画像依存の関節キーポイント確率を学習すること。
繰り返しの最適化や複雑な後処理を必要とせず、MPII や LSP といったベンチマークデータセットで競争力ある性能を達成すること。
最小限のファインチューニングで、MPII データセットから LSP データセットへの一般化を可能にすること。

提案手法

各画像パッチが、局所的なコンテキストから深層畳み込みニューラルネットワーク（CNN）を用いて、すべての16個のキーポイントの相対的位置を予測する投票を生成する。
キーポイントの信頼度マップは、すべての画像パッチにわたる投票を集約することで形成され、密度的で画像全体にわたる監視を可能にする。
コンセンサス投票では、共有されるパッチ中心を介して個々のキーポイント投票スコアを乗算することで、関節的な確率を計算する。これにより、同時に現れるパーツの信頼性を捉える。
関節確率 P(Ki=x, Kj=y) は ∑y P_y(Ki=x) · P_y(Kj=y) として計算され、高い値は複数のパッチからの一致を示す。
学習済みのユニタリ項とコンセンサスに基づくバイナリ項を用いた逐次的エネルギー最小化により、ポーズ推論を実行する。
テスト時増強として画像の反転を適用することで、LSPデータセットの逆さまのポーズに対する性能が向上した。

実験結果

リサーチクエスチョン

RQ1局所的な画像パッチからの密度的で多ターゲットの投票は、疎なキーポイント検出に比べ、キーポイント検出の精度を向上させるか？
RQ2パッチ間でのコンセンサス投票は、固定されたデータ駆動のパーツ関係よりも意味的で画像依存の関節キーポイント確率を生成できるか？
RQ3提案された投票フレームワークは、最小限のファインチューニングでMPIIデータセットからLSPデータセットへ効果的に一般化できるか？
RQ4繰り返しの最適化や複雑なグラフィカルモデルに依存せず、MPII や LSP といった困難なベンチマークでSOTA性能を達成できるか？
RQ5L2回帰に比べて、位置予測にログ・ポーラー・ビンを使用する場合、ロバストネスと精度の面でどのように異なるか？

主な発見

MPIIの単一人物データセットでは、平均PCKhスコアが85.0%を達成し、ヘッドキーポイントで97.8%のPCKhを記録し、SOTA性能を達成した。
LSPデータセットでは、PCPスコアが84.2%を達成し、大多数の先行手法を上回り、拡張されたLSPデータセットを使用していないにもかかわらず、Pishchulinらの手法と同等の性能を示した。
MPIIからLSPへの一般化が良好に実現され、わずか1,000枚のトレーニング画像でファインチューニングしたモデルでも強力な結果を得られた。
コンセンサス投票の導入により、固定された相対位置事前分布を越えたポーズの一貫性が向上した。
テスト時の画像反転により、LSPにおける逆さまのポーズに対する性能が向上し、方向変動に対するロバストネスが示された。
繰り返しの最適化や複雑な後処理を必要とせず、投票集約とコンセンサスに依存することで、競争力ある結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。