QUICK REVIEW

[論文レビュー] Combining Local Appearance and Holistic View: Dual-Source Deep Neural Networks for Human Pose Estimation

Xiaochuan Fan, Kang Zheng|arXiv (Cornell University)|Apr 27, 2015

Human Pose and Action Recognition参考文献 32被引用数 92

ひとこと要約

本論文では、画像パッチからのローカルな部分の外観と、全身のビューからの包括的なボディコンテキストを併用することで、2次元人体ポーズ推定のためのデュアルソース畳み込みニューラルネットワーク（DS-CNN）を提案する。本手法は、部分とボディの両方のパッチで学習することで、関節の検出と局所化の精度を向上させ、FLICおよびLSPデータセットにおいて最先端の性能を達成し、DeepPose や Tompson らの手法よりも、大きな局所化誤差を伴う困難なケースで優れている。

ABSTRACT

We propose a new learning-based method for estimating 2D human pose from a single image, using Dual-Source Deep Convolutional Neural Networks (DS-CNN). Recently, many methods have been developed to estimate human pose by using pose priors that are estimated from physiologically inspired graphical models or learned from a holistic perspective. In this paper, we propose to integrate both the local (body) part appearance and the holistic view of each local part for more accurate human pose estimation. Specifically, the proposed DS-CNN takes a set of image patches (category-independent object proposals for training and multi-scale sliding windows for testing) as the input and then learns the appearance of each local part by considering their holistic views in the full body. Using DS-CNN, we achieve both joint detection, which determines whether an image patch contains a body joint, and joint localization, which finds the exact location of the joint in the image patch. Finally, we develop an algorithm to combine these joint detection/localization results from all the image patches for estimating the human pose. The experimental results show the effectiveness of the proposed method by comparing to the state-of-the-art human-pose estimation methods based on pose priors that are estimated from physiologically inspired graphical models or learned from a holistic perspective.

研究の動機と目的

大きなポーズ変化、オクルージョン、外観の多様性に起因する正確な2次元人体ポーズ推定の課題に対処すること。
ローカルな部分の外観とグローバルなボディコンテキストを統合することで、関節検出と局所化の信頼性を向上させること。
文脈認識能力や特徴的なローカル特徴を欠く部分ベースのモデルや単一ソースのCNNに起因する制限を克服すること。
2つの入力パッチを用いて、関節検出と局所化の両方を実行する統合的なディープラーニングフレームワークを構築すること。
従来のCNNベースおよびグラフィカルモデルベースのポーズ推定手法よりも優れた性能を示すことを実証すること。

提案手法

訓練に使用するため、カテゴリに依存しないオブジェクト候補をローカルな部分パッチとして、全身画像を包括的なコンテキストパッチとして用いる。
ペアド入力（ローカル部分パッチ p_p とそれに対応する全身パッチ p_b）を用いて、デュアルソースCNN（DS-CNN）を学習する。ここで p_b にはローカル部分のバイナリマスクが含まれる。
DS-CNNは2つのタスクを実行する：関節検出（パッチ内に関節が存在するか否か）と関節局所化（パッチ内での正確な関節座標）。
推論段階では、オブジェクト候補の代わりにマルチスケールスライディングウィンドウを用い、密度の高いカバーを確保し、不均一な分布を回避する。
すべてのウィンドウにおける関節検出スコアからヒートマップを構築し、高い尤度領域における関節局所化結果を重み付き平均することで、最終的な関節位置を精緻化する。
モデルはCaffeを用いて実装され、検出と局所化の両方を一括して最適化するエンドツーエンドの学習が行われる。

実験結果

リサーチクエスチョン

RQ1ローカルな外観と包括的なボディコンテキストを統合することで、2次元人体ポーズ推定の精度が向上するか？
RQ2部分パッチと全身パッチを処理するデュアルソースCNNアーキテクチャは、単一ソースモデルよりも優れた関節検出と局所化を達成するか？
RQ3包括的なコンテキストの組み込みが、複雑なポーズや隠れ関節における性能に与える影響は何か？
RQ4提案手法は、グラフィカルモデルや単一ブランチCNNに依存する最先端の手法を上回る性能を示せるか？
RQ5各入力モodal（ローカル部分 vs. 全身）が最終的な検出性能に果たす寄与度は何か？

主な発見

提案されたDS-CNN手法は、FLICおよびLSPデータセットの両方で優れた性能を達成し、Part Detection Joint（PDJ）指標においてDeepPoseや他の最先端手法を上回っている。
FLICデータセットでは、正規化距離が0.15（肘）を超えるか、0.18（手首）を超える場合、Tompson らを除くすべての比較手法を上回っている。
LSPデータセットでは、正規化距離が大きい場合にTompson らよりも顕著な性能向上を示しており、大きな局所化誤差に対してより高いロバストネスを示している。
アブレーションスタディの結果、2つのソース入力（p_p と p_b）を併用した場合に平均平均精度（mAP）が最も高く、部分パッチのみまたは全身パッチのみを用いたモデルよりも顕著に優れている。
特徴マップの可視化により、DS-CNNがローカルな部分の形状とグローバルなポーズ構成（例：曲げた肘、股関節）を組み合わせた特徴を学習していることが確認された。
LSPの複雑なポーズや全身のポーズにおいて、関節が隠れても正常にポーズを推定できることを、定性的な結果から示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。