QUICK REVIEW

[論文レビュー] Unite the People: Closing the Loop Between 3D and 2D Human Representations

Christoph Lassner, Javier Romero|arXiv (Cornell University)|Jan 10, 2017

Human Pose and Action Recognition参考文献 44被引用数 46

ひとこと要約

本稿では、2次元と3次元の人体表現の間でフィードバックループを閉じる自己向上型フレームワークを提案する。2次元キーポoinアノテーションから高品質な3次元ボディモデルフィットを生成するための準自動パイプラインを用いる。初期データセット（UP-3D）上で91地点のポーズ推定器を訓練することで、3次元フィットの精度を向上させ、10分の1の学習データで最先端の3次元人体ポーズおよび形状推定を実現するとともに、最適化ベースの手法に代わる直接回帰モデルにより、桁違いに高速な推論を可能にする。

ABSTRACT

3D models provide a common ground for different representations of human bodies. In turn, robust 2D estimation has proven to be a powerful tool to obtain 3D fits "in-the- wild". However, depending on the level of detail, it can be hard to impossible to acquire labeled data for training 2D estimators on large scale. We propose a hybrid approach to this problem: with an extended version of the recently introduced SMPLify method, we obtain high quality 3D body model fits for multiple human pose datasets. Human annotators solely sort good and bad fits. This procedure leads to an initial dataset, UP-3D, with rich annotations. With a comprehensive set of experiments, we show how this data can be used to train discriminative models that produce results with an unprecedented level of detail: our models predict 31 segments and 91 landmark locations on the body. Using the 91 landmark pose estimator, we present state-of-the art results for 3D human pose and shape estimation using an order of magnitude less training data and without assumptions about gender or pose in the fitting procedure. We show that UP-3D can be enhanced with these improved fits to grow in quantity and quality, which makes the system deployable on large scale. The data, code and models are available for research purposes.

研究の動機と目的

ロバストな2次元および3次元人体認識モデルの学習に必要な大規模かつ詳細な3次元人体アノテーションの不足を解消すること。
生成された3次元フィットに学習された識別モデルからのフィードバックを通じて、3次元フィット品質を向上させるスケーラブルで反復的なフレームワークを構築すること。
最小限の人的アノテーションデータで、31の意味的セマンティック部位と91のキーポイント位置を持つ高精細な3次元人体モデル推定を可能にすること。
遅い最適化ベースのフィッティングを直接回帰モデルに置き換えることで、リアルタイムの3次元ポーズおよび形状予測を実現すること。
改善された3次元フィットが、学習データプールを拡張可能であることを示し、連続的な自己向上を可能にすること。

提案手法

2次元キーポイントアノテーションから高品質な3次元ボディモデルフィットを生成するため、改良されたSMPLify手法を用い、初期化と追加のフィッティング目的関数を改善している。
人間のアノテーターは、良いフィットと悪いフィットの分類のみを実施し、アノテーション作業の負担を著しく削減しながらも、ラベルの一貫性を維持している。
得られた初期データセットであるUP-3Dには、複数のデータセットを統合し、31部位の豊富なアノテーションと91地点のキーポイント位置が含まれている。
2次元画像から91個の3次元ボディランドマークを予測するための深層畳み込みニューラルネットワーク（ResNet-101）を訓練し、直接的な3次元ポーズ推定を可能にしている。
ランダムフォレストベースの直接予測器を訓練し、2次元キーポイントから全3次元ボディモデルパラメータ（ポーズおよび形状）を回帰することで、サブ秒未満の推論を実現している。
本システムは、改善された91地点ランドマーク予測を用いて、以前に却下された画像の3次元モデルを再フィットさせることで、フィードバックループを閉じており、より高品質なアノテーションを含むデータセットを拡張している。

実験結果

リサーチクエスチョン

RQ1準自動パイプラインは、高品質な3次元人体フィットを生成しつつ、人的アノテーション作業の負担を著しく削減できるか？
RQ2小規模で選別された3次元フィットデータセット上で学習された91地点ポーズ推定器は、最小限の学習データで標準ベンチマークで最先端の性能を達成できるか？
RQ3遅い最適化ベースの3次元フィッティングを、高精度を維持しつつ直接回帰モデルに置き換えることができるか？また、リアルタイム推論を可能にするか？
RQ43次元フィット品質の向上は、大規模データセットにおける使用可能な高品質フィットの数に顕著な増加をもたらすか？
RQ5識別モデルと生成的フィッティングの間のフィードバックループは、反復的にデータセットの質と量を向上させることができるか？

主な発見

91地点ランドマークポーズ推定器は、従来手法の10分の1の学習データ量で、HumanEvaおよびHuman3.6Mデータセットで最先端の性能を達成した。
直接回帰モデルは0.378秒で全3次元ボディ構成を予測し、計算の主なボトル neck はCNNである。
直接予測器は、SMPLify（数十秒かかる）を除くすべての最適化ベース手法を上回った性能を示した。
LSPデータセットでは、改善された3次元フィット手法により、14個の真値キーポイントのみを用いた場合と比較して、高品質なフィットが受け入れられた割合が9.3%向上した。
LSPデータセットの利用可能なデータは、308枚の画像でセグメンテーションF1スコアが向上し、20%の増加を示した。
フィードバックループにより反復的なデータ拡張が可能となった：91地点ランドマークモデルによる改善フィットのおかげで、人間アノテーターが185枚の追加画像を受容可能と判断し、継続的な自己向上の有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。