[論文レビュー] Unsupervised Adversarial Learning of 3D Human Pose from 2D Joint Locations
GANベースの手法で、3D poseデータを一切使用せず、単一画像の2Dジョイント位置から3D人間姿勢を予測する。水平方向の回転下で3D投影が妥当であり続けることを保証する。
The task of three-dimensional (3D) human pose estimation from a single image can be divided into two parts: (1) Two-dimensional (2D) human joint detection from the image and (2) estimating a 3D pose from the 2D joints. Herein, we focus on the second part, i.e., a 3D pose estimation from 2D joint locations. The problem with existing methods is that they require either (1) a 3D pose dataset or (2) 2D joint locations in consecutive frames taken from a video sequence. We aim to solve these problems. For the first time, we propose a method that learns a 3D human pose without any 3D datasets. Our method can predict a 3D pose from 2D joint locations in a single image. Our system is based on the generative adversarial networks, and the networks are trained in an unsupervised manner. Our primary idea is that, if the network can predict a 3D human pose correctly, the 3D pose that is projected onto a 2D plane should not collapse even if it is rotated perpendicularly. We evaluated the performance of our method using Human3.6M and the MPII dataset and showed that our network can predict a 3D pose well even if the 3D dataset is not available during training.
研究の動機と目的
- 3Dデータセットや連続フレームに依存せず、2Dジョイントから3Dポーズ推定を動機づける。
- 2Dジョイントからz座標を回帰する教師なしの対立的フレームワークを提案する。
- 生成された3Dポーズが2Dへ投影され回転しても一貫性を保つことを保証する。
- 2Dアノテーションのみを活用して野外データセットへの適用性を示す。
提案手法
- Gを用いて N×2 の2Dジョイント位置 p から N 個の z 座標(z1..zN)へ写像する。
- 生成された3Dポーズを y軸周りにランダム角度 θ∈[-π,π]だけ回転させ、直交投影して2Dに投影する;結果を p̂ と表す。
- 判別器 D を訓練して実際の2Dポーズ p と投影3Dポーズ p̂ を識別させ、V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ)))] を最適化する。
- 中心ジョイントを用いた2Dジョイントの正規化を加え、中心までの距離の平均値で座標を減算・スケーリングする。
- 角度ベースの制約 L_angle を導入し、β が顔と肩の向きベクトル間の角度であるとき sinβ≥0 を強制して反転した3Dポーズを抑制する。
- 最終目的はGAN損失に角度制約を含め、V(G,D) = E_p[log D(p)] + E_p,θ[log(1−D(f(p,G(p);θ))) + L_angle] とする。
- ネットワーク設計は、GとDの両方で4層の線形層(1024 隠れユニット)、Leaky ReLU およびスキップ接続を採用。
実験結果
リサーチクエスチョン
- RQ12Dジョイントのみを用い、3Dポーズを単一画像から学習できるか(3Dデータなしで)?
- RQ2生成された3Dポーズの投影で回転的一貫性を課すことで、2D入力から妥当な3D再構成が可能か?
- RQ3野外でキャプチャされた2Dデータセット(例:MPII)やグラウンドトゥルース2Dジョイントを持つデータセットへ、教師なしアプローチはどれだけ転移するか?
- RQ4カメラ幾何学的仮定(正投影、水平配置)が再構成精度に与える影響はどの程度か?
主な発見
| Method | Direct. | Discuss | Eating | Greet | Phone | Photo | Pose | Purch. | Sitting | SitingD | Smoke | Wait | WalkD | Walk | WalkT | Avg | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| w/ 3D dataset | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | |
| Tang et al. | 53.7 | 71.5 | 82.3 | 58.6 | 86.9 | 98.4 | 57.6 | 104.2 | 100.0 | 112.5 | 83.3 | 68.9 | — | 57.0 | — | 79.0 | |
| Martinez et al. | 37.7 | 44.4 | 40.3 | 42.1 | 48.2 | 54.9 | 44.4 | 42.1 | 54.6 | 58.0 | 45.1 | 46.4 | — | 47.6 | — | 40.4 | 45.5 |
| w/o 3D dataset | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | — | |
| Ours | 125.0 | 137.9 | 107.2 | 130.8 | 115.1 | 127.3 | 147.7 | 128.7 | 134.7 | 139.8 | 114.5 | 147.1 | 130.8 | 125.6 | 151.1 | 130.9 |
- 本手法は3Dデータセットを用いず、単一の2Dジョイント位置から3Dポーズを予測できる。
- Human3.6M における真の2Dジョイントでの評価では、平均誤差が 130.9 mm。
- 2D検出ジョイント(Stacked Hourglass)では、3Dデータを用わず学習した場合の平均誤差は 173.2 mm。
- 3D監督付きの場合、従来法は教師なし手法より低い誤差を達成する(例:監督付きベースラインで 45.5–62.9 mm の範囲が挙げられている)。
- このアプローチはMPII(野外)データセットで、2Dアノテーションのみを用いて定性的な3Dポーズ予測を示す。
- MPI-INF-3DHP の真の2Dジョイントによる評価は 150 mm で 89.3 PCK を達成し、良好な2Dポーズ品質が3D再構成を改善することを示唆。
- 正確な2Dジョイントが与えられた場合、垂直軸周りの視点変化に対しても手法は頑健である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。