[論文レビュー] Self-supervised Learning of Motion Capture
本論文は、単眼動画に対する学習ベースのモーションキャプチャモデルを提案する。合成データで事前学習し、テスト時には自己教師付きで微分可能なレンダリング損失を用いてキーポイント、セグメンテーション、および密なメッシュ運動を最適化・洗練させ、従来の最適化や非適応ベースラインを上回る。
Current state-of-the-art solutions for motion capture from a single camera are optimization driven: they optimize the parameters of a 3D human model so that its re-projection matches measurements in the video (e.g. person segmentation, optical flow, keypoint detections etc.). Optimization models are susceptible to local minima. This has been the bottleneck that forced using clean green-screen like backgrounds at capture time, manual initialization, or switching to multiple cameras as input resource. In this work, we propose a learning based motion capture model for single camera input. Instead of optimizing mesh and skeleton parameters directly, our model optimizes neural network weights that predict 3D shape and skeleton configurations given a monocular RGB video. Our model is trained using a combination of strong supervision from synthetic data, and self-supervision from differentiable rendering of (a) skeletal keypoints, (b) dense 3D mesh motion, and (c) human-background segmentation, in an end-to-end framework. Empirically we show our model combines the best of both worlds of supervised learning and test-time optimization: supervised learning initializes the model parameters in the right regime, ensuring good pose and surface initialization at test time, without manual effort. Self-supervision by back-propagating through differentiable rendering allows (unsupervised) adaptation of the model to the test data, and offers much tighter fit than a pretrained fixed model. We show that the proposed model improves with experience and converges to low-error solutions where previous optimization methods fail.
研究の動機と目的
- きれいな背景やマルチカメラ環境を必要とせず、単眼での3Dモーションキャプチャを動機づける。
- 単眼動画からSMPLの3D人間メッシュパラメータを予測するニューラルモデルを開発する。
- 合成データによる監視と、微分可能レンダリングによる自己監視を活用して、テスト時に適応する。
- テスト時の自己監視が、純粋に監視学習または純粋な最適化ベースのアプローチよりも厳密な3D再構成をもたらすことを示す。
提案手法
- パラメータ theta(姿勢)と beta(形状)を持つ密な3D人間メッシュモデルとしてSMPLを使用する。
- ネットワークを合成データ(Surreal)上で、thetaとbetaの回帰を教師ありで事前学習する。
- 3Dキーポイント、密なメッシュ運動、セグメンテーションを微分可能にレンダリングしてエンドツーエンドの自己教師付き損失を適用し、検出された2D対応と比較する。
- 自己教師付き損失には、キーポイント再投影、2D光学フローに対する運動再投影、Chamfer距離ベースのペナルティによるセグメンテーション再投影を含む。
- 可視性をレイキャスティングで実装し、遮蔽された頂点の運動再投影をマスクし、バックプロパゲーションで訓練する。
- SurrealとHuman3.6M (H3.6M)で評価し、最適化ベースのベースラインおよび事前学習のみモデルと比較する。
実験結果
リサーチクエスチョン
- RQ1合成データで訓練され、テスト時に自己教師付きで適応させることで、ニューラルネットワークは単眼動画からSMPLパラメータを予測できるのか。
- RQ2微分可能レンダリングベースの損失(キーポイント、運動、セグメンテーション)は、正確な3D再構成とシンセティックから実データへのドメイン移行を可能にするか。
- RQ3テスト時の適応は、純粋に事前学習済みまたは純粋な最適化ベースのアプローチを上回るために不可欠か。
- RQ4提案された自己教師付き損失は、3Dメッシュとスケルトンの精度向上において互いにどのように補完し合うか。
主な発見
| 表面誤差 (mm) | 関節ごとの誤差 (mm) | 再構成誤差 (mm) | |
|---|---|---|---|
| Optimization | 346.5 | 532.8 | 1320.1 |
| Optimization + tildeR | 301.1 | 222.0 | 294.9 |
| Optimization + tildeR + tildeT | 272.8 | 206.6 | 205.5 |
| Pretrained | 119.4 | 101.6 | 351.3 |
| Pretrained+Self-Sup | 74.5 | 64.4 | 203.9 |
| per-joint error (mm) | recon. error (mm) | ||
| Optimization | 562.4 | 883.1 | |
| Pretrained | 125.6 | 303.5 | |
| Pretrained+Self-Sup | 98.4 | 145.8 |
- 自己教師付きのテスト時適応は、事前学習のみや直接的な最適化ベースのベースラインよりも高い3D再構成精度をもたらす。
- Surrealでは、Pretrained+Self-Sup モデルが surface error 74.5 mm、per-joint error 64.4 mm、reconstruction error 203.9 mm を達成し、ベースラインを上回る。
- H3.6Mでは、Pretrained+Self-Sup モデルが per-joint error を 98.4 mm、reconstruction error を 145.8 mm に減らし、最適化および事前学習ベースラインと比較して改善。
- アブレーションにより、3つの損失(キーポイント、セグメンテーション、運動)のすべてが補完的で、3Dキーポイントとメッシュ精度を総合的に向上させることが示された。
- 微分可能レンダリングを用いる自己教師付きは、合成データ(Surreal)から実データ(H3.6M)へのドメイン移行を可能にし、適合を改善する。
- このアプローチは監督付き事前学習と無監督適応を組み合わせ、手動初期化なしでより厳密なメッシュフィットを達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。