QUICK REVIEW

[論文レビュー] Convolutional Pose Machines

Evan Murray, von Coler, Henrik|arXiv (Cornell University)|Jan 30, 2016

Human Pose and Action Recognition参考文献 37被引用数 295

ひとこと要約

Convolutional Pose Machines (CPMs) は、深層畳み込みネットワークを連続的な姿勢推定フレームワークに組み込み、画像特徴と暗黙の空間モデルを学習し、明示的なグラフィカルモデル推論なしに、体の部位の信念マップを段階的に洗練させて生成します。MPII、LSP、FLIC ベンチマークで最先端の結果を達成します。

ABSTRACT

Pose Machines provide a sequential prediction framework for learning rich implicit spatial models. In this work we show a systematic design for how convolutional networks can be incorporated into the pose machine framework for learning image features and image-dependent spatial models for the task of pose estimation. The contribution of this paper is to implicitly model long-range dependencies between variables in structured prediction tasks such as articulated pose estimation. We achieve this by designing a sequential architecture composed of convolutional networks that directly operate on belief maps from previous stages, producing increasingly refined estimates for part locations, without the need for explicit graphical model-style inference. Our approach addresses the characteristic difficulty of vanishing gradients during training by providing a natural learning objective function that enforces intermediate supervision, thereby replenishing back-propagated gradients and conditioning the learning procedure. We demonstrate state-of-the-art performance and outperform competing methods on standard benchmarks including the MPII, LSP, and FLIC datasets.

研究の動機と目的

関節付き姿勢推定のために、暗黙的な長距離空間依存性を学習するシステムを動機づけ、設計する。
手作業で設計された特徴量とグラフィカルモデル推論を、微分可能でエンドツーエンドで学習可能な畳み込みアーキテクチャに置き換える。
各段階での中間監督を通じて、深い逐次ネットワークの勾配消失に対処する。
標準的な姿勢ベンチマークで最先端の精度を示し、CPMsの訓練スキームを分析する。

提案手法

ポーズマシンの予測子を、各段階で各部位の信念マップを予測する多段階の畳み込みネットワークに置換する。
各段階は画像証拠と前段階の信念マップを用いて洗練された信念マップを生成し、画像と信念マップの両方で大きな受容野を可能にする。
各段階で信念マップにL2損失を追加して中間監督を行い、勾配消失を抑制する形でエンドツーエンドで訓練する。
段階間で画像特徴マップを共有し、受容野を段階的に拡大して長距離の部位関係を捉える。
最終予測のためにデータ拡張とマルチスケール信念マップ融合を用いてMPII、LSP、FLICで評価する。

実験結果

リサーチクエスチョン

RQ1グラフィカルモデル推論なしで、完全に微分可能な多段階の畳み込みアーキテクチャが姿勢推定の暗黙的な空間モデルを学習できるか？
RQ2深い段階的CNNにおける構造化予測で、中間監督は勾配消失を効果的に緩和するか？
RQ3後半の段階で受容野を拡大することは、長距離の部位依存性の精度にどう影響するか？
RQ4CPMsにおけるエンドツーエンドの結合訓練と、段階的訓練または非監督訓練の相対的な利点は何か？
RQ5CPMsはMPII、LSP、FLICデータセットで、ハイ精度・ロー精度の指標いずれも最先端の性能を達成するか？

主な発見

CPMはMPII、LSP、FLICデータセットで最先端の結果を達成する。
中間監督は勾配消失を緩和し、多層にわたる学習を改善する。
後半の段階でより大きな受容野は、長距離の部位相互作用のモデリングを改善し、精度を向上させる。
中間損失を伴うエンドツーエンド訓練は、段階的訓練や非監督訓練よりも大幅に優れている。
実験では、最大で5段階までの性能向上が見られ、6段階目ではリターンが小さくなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。