QUICK REVIEW

[論文レビュー] Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation

Hanbyul Joo, Natalia Neverova|arXiv (Cornell University)|Apr 7, 2020

Human Pose and Action Recognition参考文献 69被引用数 51

ひとこと要約

本論文では、COCO や MPII などの 2D キーポイントデータセットから、3D パラメトリックボディモデルとデータ駆動型ポーズプライアを活用して深度の曖昧性を解消することで、正確な 3D ヒューマンポーズアノテーションを生成する Exemplar Fine-Tuning (EFT) の手法を紹介する。得られた大規模な屋外環境用 3D データセットにより、屋外やインターネット動画など困難な状況でも最先端の 3D ヒューマンポーズ推定が実現できる。

ABSTRACT

We propose a method for building large collections of human poses with full 3D annotations captured `in the wild', for which specialized capture equipment cannot be used. We start with a dataset with 2D keypoint annotations such as COCO and MPII and generates corresponding 3D poses. This is done via Exemplar Fine-Tuning (EFT), a new method to fit a 3D parametric model to 2D keypoints. EFT is accurate and can exploit a data-driven pose prior to resolve the depth reconstruction ambiguity that comes from using only 2D observations as input. We use EFT to augment these large in-the-wild datasets with plausible and accurate 3D pose annotations. We then use this data to strongly supervise a 3D pose regression network, achieving state-of-the-art results in standard benchmarks, including the ones collected outdoor. This network also achieves unprecedented 3D pose estimation quality on extremely challenging Internet videos.

研究の動機と目的

特殊なキャプチャ機器が不実用であるため、大規模かつ完全に 3D アノテーションが施された屋外環境用ヒューマンポーズデータセットが不足しているという問題に対処すること。
2D 唯一のキーポイント観測において生じる深度の曖昧性を解消すること。
制約のない現実世界の動画に対して、妥当で正確な 3D ポーズアノテーションを生成する手法を開発すること。
屋外シーンやインターネット動画など、制御のきかない環境における 3D ヒューマンポーズ推定のパフォーマンスを向上させること。
2D の監視情報のみで、リアルな再現性と正確性を高めるためにデータ駆動型プライアを活用すること。

提案手法

2D キーポイント検出に 3D パラメトリックボディモデル（例：SMPL）を適合させるための最適化ベースの新規手法として Exemplar Fine-Tuning (EFT) を提案する。
EFT は、既存の 3D ヒューマンポーズデータから学習されたデータ駆動型ポーズプライアを組み込み、3D 再構築をガイドし、深度の曖昧性を解消する。
2D キーポイントの再投影誤差とポーズプライア正則化を組み合わせた微分可能な損失関数を最小化することで、3D ジョイント位置とボディシェイプパラメータを最適化する。
EFT を、COCO や MPII などの既存の 2D キーポイントデータセットにスケールアップして適用し、大規模な 3D アノテーション付き屋外画像のコレクションを生成する。
得られた合成された 3D アノテーション付きデータセットを用いて、3D ポーズ回帰ネットワークを監視し、制約のない環境への一般化性能を向上させる。
最終的なモデルは、屋外および屋外データセットを含む標準ベンチマークで訓練および評価され、最先端のパフォーマンスを達成する。

実験結果

リサーチクエスチョン

RQ1特殊な 3D キャプチャを用いない 2D から 3D ポーズリフトにおいて、データ駆動型ポーズプライアが深度の曖昧性を効果的に解消できるか？
RQ2Exemplar Fine-Tuning は、制約のない現実世界の設定における 2D キーポイントアノテーションから、高品質で現実的な 3D ヒューマンポーズを生成できるか？
RQ3EFT によって生成された 3D データでファインチューニングを施すことで、困難な屋外および屋外ベンチマークにおける 3D ポーズ推定パフォーマンスがどの程度向上するか？
RQ4EFT でアノテーションされたデータで訓練された 3D 回帰ネットワークは、複雑なポーズや隠蔽を伴う極めて困難なインターネット動画に一般化できるか？
RQ5EFT によって生成された 3D アノテーションの品質は、実際の 3D アノテーションと比較して、下流の 3D ポーズ推定精度においてどの程度の差異を示すか？

主な発見

Exemplar Fine-Tuning (EFT) は、制約のない屋外環境における 2D キーポイント検出から、正確で妥当な 3D ヒューマンポーズを効果的に生成する。
EFT によって生成された 3D データセットは、3D ポーズ回帰ネットワークに対する強力な監視を可能にし、屋外および屋外データセットを含む標準ベンチマークで最先端のパフォーマンスを達成する。
極めて困難なインターネット動画においても、EFT は画期的な 3D ポーズ推定の品質を達成し、複雑なシーンや隠蔽に対しても頑健であることを示した。
EFT におけるデータ駆動型ポーズプライアの統合により、2D 観測に内在する曖昧性を著しく解消し、深度推定の正確性が向上した。
EFT によって得られる 3D アノテーション付きデータセットは大規模であり、制御されたラボ環境を超えた一般化を可能にする深層ネットワークの学習に適している。
最終的な 3D ポーズ推定モデルは、標準評価プロトコルにおいて、特に現実世界および制約のない環境において、先行手法を上回る性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。