QUICK REVIEW

[論文レビュー] MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model

Jinguang Tong, Jinbo Wu|arXiv (Cornell University)|Mar 16, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

MVHOI は 3D foundation model を Unified Object Anchor として活用する2段階フレームワークを提示し、複数視点のオブジェクト参照と長時間ビデオの忠実度を向上させた3D認識 HOI ビデオ再現を可能にする。

ABSTRACT

Human-Object Interaction (HOI) video reenactment with realistic motion remains a frontier in expressive digital human creation. Existing approaches primarily handle simple image-plane motion (e.g., in-plane translations), struggling with complex non-planar manipulations like out-of-plane reorientation. In this paper, we propose MVHOI, a two-stage HOI video reenactment framework that bridges multi-view reference conditions and video foundation models via a 3D Foundation Model (3DFM). The 3DFM first produces view-consistent object priors conditioned on implicit motion dynamics across novel viewpoints. A controllable video generation model then synthesizes high-fidelity object texture by incorporating multi-view reference images, ensuring appearance consistency via a reasonable retrieval mechanism. By enabling these two stages to mutually reinforce one another during the inference phase, our framework shows superior performance in generating long-duration HOI videos with intricate object manipulations. Extensive experiments show substantial improvements over prior approaches, especially for HOI with complex 3D object manipulations.

研究の動機と目的

複雑な3Dオブジェクト操作の下で、平面内移動を超える HOI ビデオ再現を動機づける。
3D foundation model からの Unified Object Anchor を用いた 3D認識オブジェクト再現モジュールを導入する。
視点間で外観一貫性を維持するためのマルチビューテクスチャ合成・検索機構を開発する。
粗い3Dガイド再現と高忠実度ビデオ生成を長時間ビデオで相互強化できるようにする。

提案手法

ステージ I: マルチビュー参照とソースモーションを3D foundation model の潜在空間で統合し、 coarse でビュー一貫性のある target-object 指示を作る Unified Object Anchor を用いた3D対応オブジェクト再現。
ステージ II: DiT ベースのバックボーンとマルチビュー・アダプタを用いて、粗いステージと参照ビューに導かれた高周波テクスチャを合成するマルチリファレンスビデオ生成。
推論時のアテンション強化としてジオメトリ認識バイアスを拡張し、拡散アテンションを介して外観検索を視点一貫性のある参照へ誘導。
長尺シーケンスにおけるドリフトを抑制するため、アンカー視点計画と高品質ビデオリファインメントを交互に実行するクロス反復型長尺ビデオ推論。

実験結果

リサーチクエスチョン

RQ1複数視点のオブジェクト参照をどのように3D foundation model に統合して、大きな視点変化に対して安定で視点一貫性のある HOI 再現を実現できるか。
RQ2駆動ソースからターゲットオブジェクトへの複雑な3Dオブジェクト運動の転移を、外観を損なうことなく改善する統一的な3D潜在アンカーは可能か。
RQ3マルチビュー・テクスチャ検索機構を3D対応の再現ステージと統合することで、HOI ビデオ生成におけるテクスチャドリフトと視点混乱を低減できるか。
RQ4長期的なHOIビデオ生成を、時間的一貫性とアイデンティティ保持を伴って最適化するトレーニング・推論戦略はどれか。

主な発見

MVHOI は自己再現・交差再現の両設定で最先端ベースラインを上回る性能を達成し、再構成忠実度と時間的一貫性を向上。
複数視点参照を活用する3D認識オブジェクト再現モジュール（UOA）は、DisMoベースの手法よりも忠実な外観と幾何学的整合性を実現。
ステージ I のアテンションバイアスに導かれたマルチビュー・テクスチャ検索機構は、高忠実度ビデオ生成時のテクスチャ不整合と視点混乱を低減。
クロス反復型長尺ビデオ推論戦略はドリフトを軽減し、10秒 HOI ビデオの安定性を向上。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。