Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations

Yasunori Kudo, Keisuke Ogaki|arXiv (Cornell University)|Mar 22, 2018
Human Pose and Action Recognition参考文献 4被引用数 44
ひとこと要約

GANベースの手法で、3D poseデータを一切使用せず、単一画像の2Dジョイント位置から3D人間姿勢を予測する。水平方向の回転下で3D投影が妥当であり続けることを保証する。

ABSTRACT

The task of three-dimensional (3D) human pose estimation from a single image can be divided into two parts: (1) Two-dimensional (2D) human joint detection from the image and (2) estimating a 3D pose from the 2D joints. Herein, we focus on the second part, i.e., a 3D pose estimation from 2D joint locations. The problem with existing methods is that they require either (1) a 3D pose dataset or (2) 2D joint locations in consecutive frames taken from a video sequence. We aim to solve these problems. For the first time, we propose a method that learns a 3D human pose without any 3D datasets. Our method can predict a 3D pose from 2D joint locations in a single image. Our system is based on the generative adversarial networks, and the networks are trained in an unsupervised manner. Our primary idea is that, if the network can predict a 3D human pose correctly, the 3D pose that is projected onto a 2D plane should not collapse even if it is rotated perpendicularly. We evaluated the performance of our method using Human3.6M and the MPII dataset and showed that our network can predict a 3D pose well even if the 3D dataset is not available during training.

研究の動機と目的

  • 3Dデータセットや連続フレームに依存せず、2Dジョイントから3Dポーズ推定を動機づける。
  • 2Dジョイントからz座標を回帰する教師なしの対立的フレームワークを提案する。
  • 生成された3Dポーズが2Dへ投影され回転しても一貫性を保つことを保証する。
  • 2Dアノテーションのみを活用して野外データセットへの適用性を示す。

提案手法

  • Gを用いて N×2 の2Dジョイント位置 p から N 個の z 座標(z1..zN)へ写像する。
  • 生成された3Dポーズを y軸周りにランダム角度 θ∈[-π,π]だけ回転させ、直交投影して2Dに投影する;結果を p̂ と表す。
  • 判別器 D を訓練して実際の2Dポーズ p と投影3Dポーズ p̂ を識別させ、V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ)))] を最適化する。
  • 中心ジョイントを用いた2Dジョイントの正規化を加え、中心までの距離の平均値で座標を減算・スケーリングする。
  • 角度ベースの制約 L_angle を導入し、β が顔と肩の向きベクトル間の角度であるとき sinβ≥0 を強制して反転した3Dポーズを抑制する。
  • 最終目的はGAN損失に角度制約を含め、V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ))) + L_angle] とする。
  • ネットワーク設計は、GとDの両方で4層の線形層(1024 隠れユニット)、Leaky ReLU およびスキップ接続を採用。

実験結果

リサーチクエスチョン

  • RQ12Dジョイントのみを用い、3Dポーズを単一画像から学習できるか(3Dデータなしで)?
  • RQ2生成された3Dポーズの投影で回転的一貫性を課すことで、2D入力から妥当な3D再構成が可能か?
  • RQ3野外でキャプチャされた2Dデータセット(例:MPII)やグラウンドトゥルース2Dジョイントを持つデータセットへ、教師なしアプローチはどれだけ転移するか?
  • RQ4カメラ幾何学的仮定(正投影、水平配置)が再構成精度に与える影響はどの程度か?

主な発見

MethodDirect.DiscussEatingGreetPhonePhotoPosePurch.SittingSitingDSmokeWaitWalkDWalkWalkTAvg
w/ 3D dataset
Tang et al.53.771.582.358.686.998.457.6104.2100.0112.583.368.957.079.0
Martinez et al.37.744.440.342.148.254.944.442.154.658.045.146.447.640.445.5
w/o 3D dataset
Ours125.0137.9107.2130.8115.1127.3147.7128.7134.7139.8114.5147.1130.8125.6151.1130.9
  • 本手法は3Dデータセットを用いず、単一の2Dジョイント位置から3Dポーズを予測できる。
  • Human3.6M における真の2Dジョイントでの評価では、平均誤差が 130.9 mm。
  • 2D検出ジョイント(Stacked Hourglass)では、3Dデータを用わず学習した場合の平均誤差は 173.2 mm。
  • 3D監督付きの場合、従来法は教師なし手法より低い誤差を達成する(例:監督付きベースラインで 45.5–62.9 mm の範囲が挙げられている)。
  • このアプローチはMPII(野外)データセットで、2Dアノテーションのみを用いて定性的な3Dポーズ予測を示す。
  • MPI-INF-3DHP の真の2Dジョイントによる評価は 150 mm で 89.3 PCK を達成し、良好な2Dポーズ品質が3D再構成を改善することを示唆。
  • 正確な2Dジョイントが与えられた場合、垂直軸周りの視点変化に対しても手法は頑健である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。