QUICK REVIEW

[論文レビュー] Learning Pose Grammar to Encode Human Body Configuration for 3D Pose Estimation

Hao-Shu Fang, Yuanlu Xu|arXiv (Cornell University)|Oct 17, 2017

Human Pose and Action Recognition参考文献 34被引用数 32

ひとこと要約

本論文では、ヒューマンボディの構成知識—運動学的関係、対称性、運動連携—を階層的双方向RNNに組み込むことで、2D入力からの3Dヒューマンポーズ推定を向上させる深層文法ネットワークを提案する。ポーズ文法とポーズサンプルシミュレータを用いたデータ拡張を統合することで、クロスビューベンチマークにおいて強力な一般化性能を達成し、挑戦的なクロスカメラ評価プロトコル下で、従来手法と比較して最大12mmの平均誤差低減を達成した。

ABSTRACT

In this paper, we propose a pose grammar to tackle the problem of 3D human pose estimation. Our model directly takes 2D pose as input and learns a generalized 2D-3D mapping function. The proposed model consists of a base network which efficiently captures pose-aligned features and a hierarchy of Bi-directional RNNs (BRNN) on the top to explicitly incorporate a set of knowledge regarding human body configuration (i.e., kinematics, symmetry, motor coordination). The proposed model thus enforces high-level constraints over human poses. In learning, we develop a pose sample simulator to augment training samples in virtual camera views, which further improves our model generalizability. We validate our method on public 3D human pose benchmarks and propose a new evaluation protocol working on cross-view setting to verify the generalization capability of different methods. We empirically observe that most state-of-the-art methods encounter difficulty under such setting while our method can well handle such challenges.

研究の動機と目的

未観測のカメラビュー下での2Dから3Dポーズ推定手法の一般化性能の低さを是正すること。
深層学習モデルに高レベルのヒューマンボディ構成知識—運動学的関係、対称性、運動連携—を明示的に組み込むこと。
新しいデータ拡張技術（ポーズサンプルシミュレータ）を用いて、モデルのロバスト性と一般化性能を向上させること。
既存手法に過学習が顕在化するのを露呈する新しいクロスビュー評価プロトコル下での、提案手法の有効性を検証すること。
文法に基づくモデリングと合成データ拡張が、エンドツーエンドの画像ベース手法との性能ギャップを埋められることを示すこと。

提案手法

ベースのCNNを用いて2Dジョイント検出からのポーズに整合した特徴を抽出する。
長距離依存性をモデル化し、ヒューマンボディ構成からの高レベル制約を強制するために、階層的な双方向RNN（BRNN）をスタックする。
ポーズ文法は、骨格的チェーン（親子ジョイント関係）、身体部位間の対称性、運動連携パターンをエンコードする。
ポーズサンプルシミュレータは、3Dポーズを仮想カメラビューに投影することで、合成された2D-3Dポーズペアを生成し、トレーニングデータの多様性を拡張する。
文法部とデータ拡張を統合的に最適化することで、エンドツーエンドのバックプロパゲーションによりモデルを訓練する。
幾何的原則に従うことで、任意のノイズベースのデータ拡張を避けるように、現実的な2D投影を実現する。

実験結果

リサーチクエスチョン

RQ1ヒューマンボディ構成知識の明示的モデリングが、カメラビューを越えた3Dポーズ推定の一般化性能を向上させ得るか？
RQ2仮想カメラビューを用いたデータ拡張が、モデルのロバスト性を著しく向上させ、過学習を低減するか？
RQ3既存手法に過学習が顕在化するのを露呈する新しいクロスビュー評価プロトコル下で、提案手法の性能はいかがなものか？
RQ4文法に基づく深層ネットワークが、ゼロショットカメラ一般化においてエンドツーエンドの画像ベース手法を上回るか？
RQ5運動学的関係、対称性、運動連携といった個々の構成要素が、性能向上にどの程度寄与しているか？

主な発見

新しいクロスビュープロトコル（#3）下で、本手法はHuman3.6Mで平均誤差72.8mmを達成し、2番目に良い手法より12mm優れた。
従来SOTA手法のプロトコル#3下での性能低下は17%から41%にまで達しており、特定のカメラビューに強く過学習していることが示された。
アブレーションスタディでは、運動学的文法を追加することで誤差が1.6%（75.1mm → 73.9mm）低下し、対称性を追加することでさらに0.4%（73.9mm → 73.2mm）低下した。
ポーズサンプルシミュレータ（PSS）を用いることで、6つの追加仮想カメラビューを導入した際、誤差が7%（82.6mm → 76.7mm）低下し、一般化性能が著しく向上した。
従来手法に対してもPSSを適用することで性能が向上したため、PSSが汎用的なデータ拡張技術として有効であることが確認された。
HumanEva-IおよびMPIIでも、大多数の被験者でSOTA結果を達成し、実環境（in-the-wild）設定への一般化性能が優れていた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。