QUICK REVIEW

[論文レビュー] Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations

Yasunori Kudo, Keisuke Ogaki|arXiv (Cornell University)|Mar 22, 2018

Human Pose and Action Recognition参考文献 4被引用数 44

ひとこと要約

GANベースの手法で、3D poseデータを一切使用せず、単一画像の2Dジョイント位置から3D人間姿勢を予測する。水平方向の回転下で3D投影が妥当であり続けることを保証する。

ABSTRACT

The task of three-dimensional (3D) human pose estimation from a single image can be divided into two parts: (1) Two-dimensional (2D) human joint detection from the image and (2) estimating a 3D pose from the 2D joints. Herein, we focus on the second part, i.e., a 3D pose estimation from 2D joint locations. The problem with existing methods is that they require either (1) a 3D pose dataset or (2) 2D joint locations in consecutive frames taken from a video sequence. We aim to solve these problems. For the first time, we propose a method that learns a 3D human pose without any 3D datasets. Our method can predict a 3D pose from 2D joint locations in a single image. Our system is based on the generative adversarial networks, and the networks are trained in an unsupervised manner. Our primary idea is that, if the network can predict a 3D human pose correctly, the 3D pose that is projected onto a 2D plane should not collapse even if it is rotated perpendicularly. We evaluated the performance of our method using Human3.6M and the MPII dataset and showed that our network can predict a 3D pose well even if the 3D dataset is not available during training.

研究の動機と目的

3Dデータセットや連続フレームに依存せず、2Dジョイントから3Dポーズ推定を動機づける。
2Dジョイントからz座標を回帰する教師なしの対立的フレームワークを提案する。
生成された3Dポーズが2Dへ投影され回転しても一貫性を保つことを保証する。
2Dアノテーションのみを活用して野外データセットへの適用性を示す。

提案手法

Gを用いて N×2 の2Dジョイント位置 p から N 個の z 座標（z1..zN）へ写像する。
生成された3Dポーズを y軸周りにランダム角度 θ∈[-π,π]だけ回転させ、直交投影して2Dに投影する；結果を p̂ と表す。
判別器 D を訓練して実際の2Dポーズ p と投影3Dポーズ p̂ を識別させ、V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ)))] を最適化する。
中心ジョイントを用いた2Dジョイントの正規化を加え、中心までの距離の平均値で座標を減算・スケーリングする。
角度ベースの制約 L_angle を導入し、β が顔と肩の向きベクトル間の角度であるとき sinβ≥0 を強制して反転した3Dポーズを抑制する。
最終目的はGAN損失に角度制約を含め、V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ))) + L_angle] とする。
ネットワーク設計は、GとDの両方で4層の線形層（1024 隠れユニット）、Leaky ReLU およびスキップ接続を採用。

実験結果

リサーチクエスチョン

RQ12Dジョイントのみを用い、3Dポーズを単一画像から学習できるか（3Dデータなしで）？
RQ2生成された3Dポーズの投影で回転的一貫性を課すことで、2D入力から妥当な3D再構成が可能か？
RQ3野外でキャプチャされた2Dデータセット（例：MPII）やグラウンドトゥルース2Dジョイントを持つデータセットへ、教師なしアプローチはどれだけ転移するか？
RQ4カメラ幾何学的仮定（正投影、水平配置）が再構成精度に与える影響はどの程度か？

主な発見

Method	Direct.	Discuss	Eating	Greet	Phone	Photo	Pose	Purch.	Sitting	SitingD	Smoke	Wait	WalkD	Walk	WalkT	Avg
w/ 3D dataset	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
Tang et al.	53.7	71.5	82.3	58.6	86.9	98.4	57.6	104.2	100.0	112.5	83.3	68.9	—	57.0	—	79.0
Martinez et al.	37.7	44.4	40.3	42.1	48.2	54.9	44.4	42.1	54.6	58.0	45.1	46.4	—	47.6	—	40.4	45.5
w/o 3D dataset	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—	—
Ours	125.0	137.9	107.2	130.8	115.1	127.3	147.7	128.7	134.7	139.8	114.5	147.1	130.8	125.6	151.1	130.9

本手法は3Dデータセットを用いず、単一の2Dジョイント位置から3Dポーズを予測できる。
Human3.6M における真の2Dジョイントでの評価では、平均誤差が 130.9 mm。
2D検出ジョイント（Stacked Hourglass）では、3Dデータを用わず学習した場合の平均誤差は 173.2 mm。
3D監督付きの場合、従来法は教師なし手法より低い誤差を達成する（例：監督付きベースラインで 45.5–62.9 mm の範囲が挙げられている）。
このアプローチはMPII（野外）データセットで、2Dアノテーションのみを用いて定性的な3Dポーズ予測を示す。
MPI-INF-3DHP の真の2Dジョイントによる評価は 150 mm で 89.3 PCK を達成し、良好な2Dポーズ品質が3D再構成を改善することを示唆。
正確な2Dジョイントが与えられた場合、垂直軸周りの視点変化に対しても手法は頑健である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。