QUICK REVIEW

[論文レビュー] Sim2real transfer learning for 3D human pose estimation: motion to the rescue

Carl Doersch, Andrew Zisserman|arXiv (Cornell University)|Jul 4, 2019

Human Pose and Action Recognition被引用数 71

ひとこと要約

この論文は、モーション cues（光学フローと2Dキーポイント）をモーション拡張型姿勢推定器の入力として使用することで、3D人体ポーズ推定のsim2real転送を大幅に改善し、合成データのみで訓練した場合に最先端に似た性能を達成する。

ABSTRACT

Synthetic visual data can provide practically infinite diversity and rich labels, while avoiding ethical issues with privacy and bias. However, for many tasks, current models trained on synthetic data generalize poorly to real data. The task of 3D human pose estimation is a particularly interesting example of this sim2real problem, because learning-based approaches perform reasonably well given real training data, yet labeled 3D poses are extremely difficult to obtain in the wild, limiting scalability. In this paper, we show that standard neural-network approaches, which perform poorly when trained on synthetic RGB images, can perform well when the data is pre-processed to extract cues about the person's motion, notably as optical flow and the motion of 2D keypoints. Therefore, our results suggest that motion can be a simple way to bridge a sim2real gap when video is available. We evaluate on the 3D Poses in the Wild dataset, the most challenging modern benchmark for 3D pose estimation, where we show full 3D mesh recovery that is on par with state-of-the-art methods trained on real 3D sequences, despite training only on synthetic humans from the SURREAL dataset.

研究の動機と目的

合成データを用いた3D人体ポ pose estimation における sim2real ギャップを動機づけ、対処する。
ドメインギャップを橋渡しするためのモーションベースの前処理（光学フローと2Dキーポイント）を提案。
モーション情報が、合成訓練を用いながら実世界データで競争力のある3Dポーズ性能を可能にすることを示す。
実世界的な動きと遮蔽を含む合成動画パイプラインを構築し、ポーズ推定器を訓練する。

提案手法

メモリ対応（LSTM）コンポーネントを備えた動画処理に対応するよう、Human Mesh Recovery (HMR) を拡張し、Motion HMRと呼ぶ。
入力を光学フロー（FlowNet）と2Dキーポイントのヒートマップで前処理し、これらを追加の入力チャネルとして連結する。
動き・遮蔽・カメラ運動を伴う real 背景上に SURREAL キャラクターを合成して合成訓練データセットを作成する。遮蔽生成パイプラインには SLIC 超ピクセルを使用。
Kinetics の擬似グラウンドトゥ LT からの簡易損失でエンドツーエンド訓練（Procrustes合わせた3Dキーポイント位置誤差と2D再投影誤差）。
RGBのみ、Flowのみ、Keypointsのみ、組み合わせを比較し、3DPW上でPA-MPJPEを用いて評価する。

実験結果

リサーチクエスチョン

RQ1合成データからの3D人体ポーズ推定において、モーションベースの手がかりはsim2realギャップを橋渡しできるか。
RQ2光学フローと2Dキーポイントは、それぞれまたは共に、実世界データへの転送性能にどのように影響するか。
RQ3ベースラインのポーズ推定器にモーション情報を追加することは、DANNのようなドメイン適応手法よりもsim2real転送で優れているか。
RQ4合成データセット構築の詳細（モーション豊かな背景、遮蔽）が転送性能に与える影響は何か。
RQ5この設定における時系列コンテキスト長がポーズ推定精度に与える影響は何か。

主な発見

モーションベースの入力はRGBのみの訓練よりも大幅にsim2real転送を改善し、Flow Onlyは100.1 PA-MPJPE、RGB+Keypointsは82.4を達成。
Keypoints OnlyとFlow+Keypointsが最良の転送を達成し、それぞれ3DPWで77.6および74.7 PA-MPJPE。
RGB + FlowまたはRGB + Keypointsは、モーション cues のみあるいは Keypoints 付きと比べて劣る。RGB テクスチャが合成外観への過剰適合を招くことを示唆。
モーション cuesと遮蔽・背景のリアリズムを備えた合成データでの訓練は、実データで訓練された最先端手法（例：HMR系）と競争力のある性能を発揮。
DANNはこの設定でモーションベースの cues に対してごくわずかな利得しかもたらさず、明示的なモーション cues の方がこのタスクには効果的。
アブレーション実験は、遮蔽と動く背景を備えた完全なモーションパイプラインが、静的背景の基準より顕著な向上をもたらすことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。