QUICK REVIEW

[論文レビュー] 3D Human Pose Estimation in the Wild by Adversarial Learning

Wei Yang, Wanli Ouyang|arXiv (Cornell University)|Mar 26, 2018

Human Pose and Action Recognition参考文献 53被引用数 34

ひとこと要約

本論文は、完全にアノテートされたラボデータセットから2Dポーズアノテーションのみを用いて、屋外の画像へ3D人体ポーズ構造を転移するための対抗的学習フレームワークを提案する。相対関節位置および距離の幾何的記述子を備えたマルチソースディスクライマーを導入することで、解剖学的に妥当な3Dポーズを強制し、一般化性能を著しく向上させ、MPIIおよびMPI-INF-3DHPベンチマークで最先端の性能を達成した。

ABSTRACT

Recently, remarkable advances have been achieved in 3D human pose estimation from monocular images because of the powerful Deep Convolutional Neural Networks (DCNNs). Despite their success on large-scale datasets collected in the constrained lab environment, it is difficult to obtain the 3D pose annotations for in-the-wild images. Therefore, 3D human pose estimation in the wild is still a challenge. In this paper, we propose an adversarial learning framework, which distills the 3D human pose structures learned from the fully annotated dataset to in-the-wild images with only 2D pose annotations. Instead of defining hard-coded rules to constrain the pose estimation results, we design a novel multi-source discriminator to distinguish the predicted 3D poses from the ground-truth, which helps to enforce the pose estimator to generate anthropometrically valid poses even with images in the wild. We also observe that a carefully designed information source for the discriminator is essential to boost the performance. Thus, we design a geometric descriptor, which computes the pairwise relative locations and distances between body joints, as a new information source for the discriminator. The efficacy of our adversarial learning framework with the new geometric descriptor has been demonstrated through extensive experiments on widely used public benchmarks. Our approach significantly improves the performance compared with previous state-of-the-art approaches.

研究の動機と目的

3Dアノテーションが限られている屋外の制約のない環境における3D人体ポーズ推定の課題に対処すること。
屋外データセットからの2Dポーズアノテーションのみを用いて、弱教師付きの3Dポーズ推定器の訓練を可能にすること。
制約付きラボデータと現実世界の画像の間のドメインシフトに対して、一般化性能を向上させること。
硬直的なポーズ制約の代わりに、人間の体形的妥当性を強制する学習済みディスクライマーを導入すること。

提案手法

入力画像特徴を条件として、モノクロナル画像から3Dポーズを予測する条件付きジェネレータ（3Dポーズ推定器）を訓練する。
2つの情報源（画像入力と関節間の相対的なオフセットおよび距離の幾何的記述子）を用いて、真の3Dポーズと予測されたポーズを区別するマルチソースディスクライマーを設計する。
幾何的記述子は、体部の関節間の相対的な3次元位置および距離を符号化し、人体の関節構造と対称性をモデル化する。
エンドツーエンドの対抗的学習により、アノテーションのない屋外データに対しても、生成器が真のポーズと区別がつかないポーズを学習できるようにする。
ディスクライマーは、画像とポーズの整合性および解剖学的制約に基づいて、不自然なポーズを検出することで、生成器の出力品質を向上させる。

実験結果

リサーチクエスチョン

RQ13Dアノテーションが存在しない屋外画像へ、完全にアノテートされたラボデータセットから3Dポーズ構造を効果的に転移できるか？
RQ2関節関係の幾何的記述子を組み込むことで、ディスクライマーの解剖学的に妥当なポーズを強制する能力がどのように向上するか？
RQ32Dポーズモジュールと深度回帰器のエンドツーエンドの対抗的学習は、固定された2D特徴と比較して、より優れた3Dポーズ推定を達成できるか？
RQ4提案手法は、MPI-INF-3DHPのような未観測データセットへどの程度一般化できるか？
RQ5ディスクライマーは、左右の入れ替え、隠蔽、不自然な肢の湾曲といった一般的な失敗事例を特定・是正できるか？

主な発見

提案手法はMPII検証セットでPCKh@0.5スコア88.6を達成し、ベースラインより1.0ポイント向上した。
MPI-INF-3DHPベンチマークでは、PCKスコア69.0、AUC32.0を達成し、ベースライン（PCK:64.7、AUC:31.7）を著しく上回った。
エンドツーエンドの対抗的学習により、2Dポーズ推定誤差が事前学習ベースラインと比較して8.1%低減した。
定性的な比較により、遮蔽、ごみだらけの背景、対称的誤推定に対しても、モデルのロバスト性が向上していることが示された。
幾何的記述子をディスクライマーの入力ソースとして用いることで、収束が速くなり、一般化性能が向上したことが、トレーニングおよび検証曲線から裏付けられた。
ディスクライマーは、不自然に湾曲した肢や非対称な肢配置といった解剖学的に不適切なポーズを効果的に特定・是正した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。