Skip to main content
QUICK REVIEW

[論文レビュー] Synthesizing Training Images for Boosting Human 3D Pose Estimation

Wenzheng Chen, Huan Wang|arXiv (Cornell University)|Apr 10, 2016
Human Pose and Action Recognition参考文献 55被引用数 66
ひとこと要約

本稿では、深層畳み込みニューラルネットワーク(CNN)を用いた3次元人体ポーズ推定の性能向上を目的として、完全自動的かつスケーラブルな手法を提案する。この手法により、豊富なポーズ空間をサンプリングし、実画像からリアルな衣装テクスチャを転送することで、500万枚の合成画像を生成する。これらの合成画像にドメイン適応を組み合わせることで、ベンチマークデータセット上で実データで学習したモデルを上回る性能を達成した。

ABSTRACT

Human 3D pose estimation from a single image is a challenging task with numerous applications. Convolutional Neural Networks (CNNs) have recently achieved superior performance on the task of 2D pose estimation from a single image, by training on images with 2D annotations collected by crowd sourcing. This suggests that similar success could be achieved for direct estimation of 3D poses. However, 3D poses are much harder to annotate, and the lack of suitable annotated training images hinders attempts towards end-to-end solutions. To address this issue, we opt to automatically synthesize training images with ground truth pose annotations. Our work is a systematic study along this road. We find that pose space coverage and texture diversity are the key ingredients for the effectiveness of synthetic training data. We present a fully automatic, scalable approach that samples the human pose space for guiding the synthesis procedure and extracts clothing textures from real images. Furthermore, we explore domain adaptation for bridging the gap between our synthetic training images and real testing photos. We demonstrate that CNNs trained with our synthetic images out-perform those trained with real photos on 3D pose estimation tasks.

研究の動機と目的

  • 3次元アノテーション付きトレーニングデータの不足に起因する、人工作業による収集が極めて高コストである3次元人体ポーズ推定のためのデータ収集課題に対処すること。
  • モーショーキャプチャ(MoCap)データに欠ける、衣装や背景の多様性を克服すること。
  • 正確な3次元ポーズアノテーションとリアルなテクスチャを備えた、スケーラブルで自動化された合成画像生成パイプラインの開発。
  • 合成トレーニングデータと実画像の間のドメインギャップを、新規のドメイン適応戦略により埋めること。
  • 有効なドメイン適応を組み合わせた場合、合成データが実データで学習したモデルを上回ることを実証すること。

提案手法

  • MoCapデータと2次元アノテーション付き3次元ポーズデータを統合して統計的人体モデルを構築し、多様な体型とポーズの体系的サンプリングを可能にする。
  • 肌のしわなどの細部を保持するデータドリブンなアプローチを用いて、実際の商品画像から3次元人体モデルへの衣装テクスチャの自動転送を実現。
  • 関節結合されたテクスチャ付き人体モデルを、ランダムな実世界の背景と多様な照明条件と組み合わせてレンダリングすることで、合成画像を生成。
  • ポーズとテクスチャの変動を広くカバーする5,099,405枚の合成画像から構成される大規模データセットを生成。
  • 合成画像ドメインと実画像ドメインの特徴を一致させる新しいドメイン適応ネットワークを設計し、実画像テストデータへの一般化性能を向上。
  • 最小限のユーザ入力で済み、スケーラブルに多様なトレーニングデータを生成可能な完全自動のパイプラインである。

実験結果

リサーチクエスチョン

  • RQ1豊富なポーズとテクスチャの変動を有する合成トレーニングデータは、実データで学習したモデルを上回る性能を示せるか?
  • RQ2ポーズ空間カバレッジとテクスチャの多様性は、合成トレーニングデータの有効性にどのような影響を及えるか?
  • RQ33次元ポーズ推定において、合成画像と実画像の間のドメインギャップを効果的に埋めるには、どのようにドメイン適応を適用できるか?
  • RQ4完全自動のパイプラインは、実世界のテストデータにうまく一般化できる高品質な合成画像を生成可能か?
  • RQ5Human3.6Mなどの既存データセットと比較して、合成データのスケールと多様性が、モデルの一般化性能にどの程度向上効果をもたらすか?

主な発見

  • 本研究が生成した合成データで学習したCNNは、複数のベンチマークで実データで学習したモデル、さらには最先端モデルをも上回る性能を示した。
  • ドメイン適応ネットワークの性能は、合成データサイズの増加に伴い顕著に向上し、強力なスケーラビリティを示した。
  • 合成に使用された独自の衣装テクスチャ数がモデル性能に明確な影響を及えることが確認され、テクスチャの多様性の重要性が裏付けられた。
  • 合成データはHuman3.6Mを上回る一般化性能を示しており、合成データでテストした際の性能差が顕著に大きかったことから、より高い変動性とより良いカバレッジを有していることが示された。
  • ドメイン適応戦略によりドメインシフトが効果的に低減され、限られた実データでも合成データの有効活用が可能になった。
  • 本手法により、より洗練された新しいデータセット「Human3D+」が作成可能となり、コードおよびモデルとともに公開される予定である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。