QUICK REVIEW

[論文レビュー] DGPose: Disentangled Semi-supervised Deep Generative Models for Human Body Analysis.

Rodrigo de, Arnab Ghosh|arXiv (Cornell University)|Apr 17, 2018

Human Pose and Action Recognition参考文献 39被引用数 6

ひとこと要約

DGPoseは、潜在空間におけるポーズと外見の分離を実現する、分離型の半教師あり変分オートエンコーダーを提案する。このモデルは、ポーズ推定およびポーズ転送を、明示的な訓練なしで可能にし、ラベル付きデータへの依存を低減する。本モデルは、Human3.6MおよびChictopiaPlusで頑健な性能を達成する。

ABSTRACT

Deep generative modelling for robust human body analysis is an emerging problem with many interesting applications, since it enables analysis-by-synthesis and unsupervised learning. However, the latent space learned by such models is typically not human-interpretable, resulting in less flexible models. In this work, we adopt a structured semi-supervised variational auto-encoder approach and present a deep generative model for human body analysis where the pose and appearance are disentangled in the latent space, allowing for pose estimation. Such a disentanglement allows independent manipulation of pose and appearance and hence enables applications such as pose-transfer without being explicitly trained for such a task. In addition, the ability to train in a semi-supervised setting relaxes the need for labelled data. We demonstrate the merits of our generative model on the Human3.6M and ChictopiaPlus datasets.

研究の動機と目的

人間のボディ解析における深層生成モデルの潜在空間の解釈可能性の欠如に対処すること。
半教師あり設定下で、ポーズと外見の分離表現学習を可能にすること。
タスク固有の微調整なしに、ポーズ推定とポーズ転送を可能にすること。
弱教師ありおよび未ラベルデータを活用することで、大規模なアノテート済みデータセットへの依存を低減すること。

提案手法

ポーズと外見の分離を潜在空間で同時にモデル化する構造的半教師あり変分オートエンコーダー（ssVAE）を採用する。
構造的推論を用いて、ポーズおよび外見要因を明示的に分離する分離型潜在空間を導入する。
弱教師ありキーポイントアノテーションと大量の未ラベル画像を活用してモデルを学習する。
階層的潜在構造を用いて、ポーズと外見を独立してモデル化し、制御可能な生成と操作を可能にする。
生成品質および分離性の向上のため、敵対的学習と再構成損失を採用する。
キーポイント監視に条件付けた推論ネットワークを用い、分離表現学習を支援する。

実験結果

リサーチクエスチョン

RQ1深層生成モデルは、人間のボディ表現におけるポーズと外見を分離する潜在空間を学習できるか？
RQ2このようなモデルは、タスクに特化した明示的訓練なしに、どの程度ポーズ推定を正確に実行できるか？
RQ3半教師あり学習は、人間のボディ解析において、大規模なアノテート済みデータへの依存をどの程度低減できるか？
RQ4モデルは、再訓練なしに、アイデンティティ間でのゼロショットポーズ転送を可能にするか？

主な発見

分離型潜在空間により、ポーズと外見の独立した操作が可能となり、再訓練なしにポーズ転送が実現できる。
弱教師ありおよび未ラベルデータのみを用いて、Human3.6Mにおける競争力あるポーズ推定性能を達成した。
半教師あり学習により、完全にアノテートされたデータへの依存が顕著に低減されつつ、高い生成品質を維持した。
未観測のアイデンティティおよびポーズに対しても良好に一般化し、ゼロショット転送能力を示した。
ChictopiaPlusにおける定量的評価では、ベースラインVAEと比較して、分離性および再構成忠実度が向上した。
本手法により、制御可能なポーズおよび外見属性を持つ多様で現実的な人間ボディ画像の合成が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。