[論文レビュー] MorphGS: Morphology-Adaptive Articulated 3D Motion Transfer from Videos
カテゴリ非依存の3Dモーション転送をモノラル動画から任意の3Dキャラクターへ。 morphologically-adaptive Gaussian splatting と dense semantic correspondences を用い、3D supervisionなしで実現。
Transferring articulated motion from monocular videos to rigged 3D characters is challenging due to pose ambiguity in 2D observations and morphological differences between source and target. Existing approaches often follow a reconstruct-then-retarget paradigm, tying transfer quality to intermediate 3D reconstruction and limiting applicability to categories with parametric templates. We propose MorphGS, a framework that formulates motion retargeting as a target-driven analysis-by-synthesis problem, directly optimizing target morphology and pose through image-space supervision. A rig-coupled morphology parameterization factorizes character identity from time-varying joint rotations, while dense 2D-3D correspondences and synthesized views provide complementary structural and multi-view guidance. Experiments on synthetic benchmarks and in-the-wild videos show consistent improvements over baselines.
研究の動機と目的
- 2D動画から多様な3D資産へ、カテゴリ特有のテンプレートや明示的な3D supervisionなしでモーション転送を実現する。
- 転送中の形状(モルフォロジー)と姿勢を分離し、形状-姿勢の曖昧性を軽減する。
- 密なセマンティック対応を活用して、モルフォロジー間で姿勢最適化を導く。
- 合成・実世界の動画の両方で、人型・四足歩行・非標準モルフォロジーを跨ぐ堅牢なモーション転送を可能にする。
提案手法
- ターゲットを Skeletal Rig に取り付けられた関節ガウススプラット(Articulated-GS)として表現する。
- morphology を、学習可能な骨長さ・グローバルスケール・局所ガウスオフセットでパラメータ化し、形状と姿勢を分離する。
- 正弦波時刻埋め込みによって駆動される MLP による時刻条件付き骨格姿勢を予測する。
- 微分可能レンダリングによって表現と姿勢を最適化し、レンダリング損失と密セマンティックキーポイント損失を正則化を加えて最小化する。
- 事前学習済み特徴抽出器を用いて密な 2D-3D セマンティック対応を確立し、ピクセル-頂点マッチで姿勢を制約する。
実験結果
リサーチクエスチョン
- RQ1モノラルの2D動画から、カテゴリ特有のテンプレートや3D supervisionなしで任意の3Dメッシュへモーションを転送できるか。
- RQ2 morphology 適応的パラメータ化は、モルフォロジーが異なる場合でもモーション忠実度を保ちながら転送を改善するか。
- RQ3 密なセマンティック対応は姿勢最適化を改善し、カテゴリ間の形状-姿勢の曖昧性を低減するか。
- RQ4 提案手法は、標準ベンチマークと実世界映像上の reconstruction+retarget-baseline と比較してどうか。
主な発見
| Dataset | PMD (Mixamo) | FID (Mixamo) | PMD (DT4D-Quadrupeds) | FID (DT4D-Quadrupeds) | PMD (DT4D-Others) | FID (DT4D-Others) |
|---|---|---|---|---|---|---|
| SPT+ | 0.0029 | 0.0366 | - | - | - | - |
| NPR+ | 0.0099 | 0.0551 | 0.0032 | 0.0669 | - | - |
| Transfer4D | 0.0084 | 0.0855 | 0.0058 | 0.0505 | 0.0133 | 0.0805 |
| Ours | 0.0028 | 0.0304 | 0.0018 | 0.0171 | 0.0023 | 0.0124 |
- PMD と FID において Mixamo および DT4D データセットでベースラインを上回り、誤差が小さく主観的適合性が向上。
- 骨長さ・グローバルスケール・局所オフセットからなる morphology 適応パラメータ化は、四肢の比率変化時の幾何的一貫性を維持するのに重要。
- レンダリング損失がモーション転送品質の主要推進力であり、意味セマンティックキーポイントを加えると整合性がさらに向上。
- カテゴリを跨ぐ転送にも対応し、2D-to-2D および AI生成メッシュにもカテゴリ priors なしで適用可能。
- 効率的な最適化: 単一の RTX 4090 GPU で 10 分未満。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。