QUICK REVIEW

[論文レビュー] Crossing Nets: Combining GANs and VAEs with a Shared Latent Space for Hand Pose Estimation

Chengde Wan, Thomas Probst|arXiv (Cornell University)|Feb 11, 2017

Human Pose and Action Recognition参考文献 49被引用数 26

ひとこと要約

本稿では、3次元手ポーズのためのVAEと深度画像のためのGANを共有潜在空間内で統合することで、ラベルなしデータを用いたエンドツーエンド学習が可能な半教師付き手ポーズ推定手法を提案する。ポーズ回帰、深度マップの現実性、潜在空間の滑らかさを同時に最適化するディスクラミネーターを採用することで、CPU上で90 FPSのリアルタイム推論と、3つのベンチマークで最先端の精度を達成。特にデータが少ない状況や視点変化の厳しい条件下でも、先行手法を上回る性能を発揮する。

ABSTRACT

State-of-the-art methods for 3D hand pose estimation from depth images require large amounts of annotated training data. We propose to model the statistical relationships of 3D hand poses and corresponding depth images using two deep generative models with a shared latent space. By design, our architecture allows for learning from unlabeled image data in a semi-supervised manner. Assuming a one-to-one mapping between a pose and a depth map, any given point in the shared latent space can be projected into both a hand pose and a corresponding depth map. Regressing the hand pose can then be done by learning a discriminator to estimate the posterior of the latent pose given some depth maps. To improve generalization and to better exploit unlabeled depth maps, we jointly train a generator and a discriminator. At each iteration, the generator is updated with the back-propagated gradient from the discriminator to synthesize realistic depth maps of the articulated hand, while the discriminator benefits from an augmented training set of synthesized and unlabeled samples. The proposed discriminator network architecture is highly efficient and runs at 90 FPS on the CPU with accuracies comparable or better than state-of-art on 3 publicly available benchmarks.

研究の動機と目的

深度画像ベースの手動画像追跡における、アノテート済み3次元手ポーズデータの不足を解消すること。
ラベルなし深度画像から半教師付き学習を可能にし、高価なアノテーションへの依存を低減し、一般化性能を向上させること。
共有潜在空間を介して3次元手ポーズと深度マップの同時分布をモデル化することで、ポーズ推定の精度を向上させること。
リアルタイム推論を可能にしつつ高い精度を維持できる、計算効率の高いディスクラミネーターの開発。
GANベースのデータ拡張と潜在空間正則化を組み合わせたマルチタスク学習が、特にラベル付きデータが限られた状況下でポーズ推定の性能向上に寄与することの実証。

提案手法

3次元手ポーズパラメータのためのVAEと、深度画像のためのGANの間で共有潜在空間を学習し、同一の潜在ベクトルからポーズと深度マップの双方向生成を可能にする。
ディスクラミネーターはマルチタスク設定で学習される：(1) 実際の深度マップと生成された深度マップを区別する、(2) 潜在空間内での深度マップの類似度を測定する、(3) 深度画像から3次元手ポーズを回帰する。
潜在空間内の滑らかな補間を強制するための新しい距離制約（Lsmo）が導入され、ランダムウォーク時のリアルなポーズおよび外観の遷移を保証する。
生成器は敵対的損失（Lgan）により、ランダムノイズから現実的な深度マップを生成するように訓練される一方、ディスクラミネーターは実データと合成データの両方の恩恵を受ける。
ディスクラミネーターの事後分布推定タスクは、ラベル付きデータとラベルなしデータの両方を活用し、バックプロパゲーションを用いたエンドツーエンド学習が可能となる。
ディスクラミネーターは計算効率に配慮したアーキテクチャとして設計されており、CPU上で90 FPSを達成し、リアルタイム推論を実現している。

実験結果

リサーチクエスチョン

RQ1VAEとGANの間で共有される潜在空間が、深度画像からの3次元手ポーズ推定を改善できるか？
RQ2GANベースのデータ合成とラベルなしデータを、連続的で実数値のポーズ回帰に半教師付きで活用する方法は何か？
RQ3敵対的損失、潜在空間の滑らかさ、ポーズ回帰のマルチタスク学習は、直接的な事後分布推定と比較して一般化性能と精度を向上させるか？
RQ4計算効率の高いディスクラミネーターは、CPU上でリアルタイムで動作しながらも最先端の性能を達成できるか？
RQ5本手法は、データが少ない状況や、大きな視点変化がある状況下でも、どのように性能を発揮するか？

主な発見

提案手法は、3つの公開ベンチマーク（NYU、MSRA、ICVL）で最先端の性能を達成し、先行手法を上回っている。特に30mm以上の誤差閾値において顕著な優位性を示す。
NYUデータセットでは、Sinhaら[34]およびOberwegerら[23]を大きく上回っており、視点変化に対するロバストネスが顕著に優れている。
ICVLでは、Oberwegerらの高度なリファインメントベース手法を、30mm以上の誤差閾値で2%上回る。
CPU上で90 FPSで実行可能であり、高度に効率化されたディスクラミネーター・アーキテクチャのおかげで、リアルタイム推論の実現を確認した。
アブレーションスタディにより、滑らかさ損失（Lsmo）とGAN損失（Lgan）の両方が不可欠であることが確認され、いずれかを除去すると顕著な性能低下が生じた。
ラベル付きデータがたった2%の状況でも、スクラッチから学習する場合を上回る性能を発揮し、ラベルなしデータおよび合成データを活用した半教師付き学習の有効性を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。