QUICK REVIEW

[논문 리뷰] MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model

Jinguang Tong, Jinbo Wu|arXiv (Cornell University)|2026. 03. 16.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

MVHOI는 3D foundation 모델을 Unified Object Anchor로 활용하여 다뷰 객체 참조와 함께 3D 인지 HOI 비디오 재연을 가능하게 하고 장기 비디오의 충실도와 시간적 안정성을 향상시키는 두 단계 프레임워크를 제시한다.

ABSTRACT

Human-Object Interaction (HOI) video reenactment with realistic motion remains a frontier in expressive digital human creation. Existing approaches primarily handle simple image-plane motion (e.g., in-plane translations), struggling with complex non-planar manipulations like out-of-plane reorientation. In this paper, we propose MVHOI, a two-stage HOI video reenactment framework that bridges multi-view reference conditions and video foundation models via a 3D Foundation Model (3DFM). The 3DFM first produces view-consistent object priors conditioned on implicit motion dynamics across novel viewpoints. A controllable video generation model then synthesizes high-fidelity object texture by incorporating multi-view reference images, ensuring appearance consistency via a reasonable retrieval mechanism. By enabling these two stages to mutually reinforce one another during the inference phase, our framework shows superior performance in generating long-duration HOI videos with intricate object manipulations. Extensive experiments show substantial improvements over prior approaches, especially for HOI with complex 3D object manipulations.

연구 동기 및 목표

단순한 평면 내 움직임을 넘는 복잡한 3D 객체 조작 하에서 HOI 비디오 재연을 촉진한다.
3D foundation 모델에서 얻은 Unified Object Anchor를 기반으로 한 3D 인지 객체 재연 모듈을 도입한다.
다뷰 텍스처 합성 및 검색 메커니즘을 개발하여 시점 간 외관 일관성을 유지한다.
장기 비디오에 대해 거친 3D 주도 재연과 고충실도 비디오 생성을 상호 강화할 수 있도록 한다.

제안 방법

Stage I: 다뷰 참조와 출처 모션을 3D foundation 모델의 잠재 공간에서 결합한 Unified Object Anchor를 사용하여 거칠고 시점-일관된 대상 객체 가이던스를 생성하는 3D 인지 객체 재연.
Stage II: DiT 기반 백본과 다뷰 어댑터를 사용한 다참조 비디오 생성으로 거친 단계와 기준 뷰가 안내하는 고주파 텍스처를 합성한다.
추론 시 주의 강화로 기하학적 편향을 확산 주의(attention)에 주입하여 시점-일관된 참조에 대한 외관 검색을 유도한다.
장기간 시퀀스에서 드리프트를 완화하기 위해 앵커-뷰 계획과 고품질 비디오 정제를 교차 반복하는 장기 비디오 추론.

실험 결과

연구 질문

RQ1다뷰 객체 참조를 3D foundation 모델과 어떻게 통합하여 큰 시점 변화에서도 안정적이고 시점-일관적인 HOI 재연을 가능하게 할 수 있는가?
RQ2유니파이드 3D 잠재 앵커가 드라이빙 소스의 복잡한 3D 객체 모션을 타깃 객체로 전달하면서 외관을 보존하는 데 어떤 개선을 제공하는가?
RQ3다뷰 텍스처 검색 메커니즘을 3D 인지 재연 단계와 통합하면 HOI 비디오 생성에서 텍스처 드리프트와 시점 혼동이 감소하는가?
RQ4시간적 안정성과 정체성 보존을 위한 장기간 HOI 비디오 생성에 어떤 학습 및 추론 전략이 가장 잘 작동하는가?

주요 결과

MVHOI는 자체 재연 및 교차 재연 설정 모두에서 최첨단 기법 대비 우수한 성능을 달성하며 재구성 충실도와 시간적 일관성을 향상시킨다.
다뷰 참조를 활용한 3D 인지 객체 재연 모듈(UOA)은 DisMo 기반 접근 방식보다 더 충실한 외관 및 기하학적 무결성을 제공한다.
Stage I 주의 편향에 의해 유도된 다뷰 텍스처 검색 메커니즘은 고충실도 비디오 생성 중 텍스처 불일치 및 시점 혼동을 감소시킨다.
교차 반복적 장기 비디오 추론 전략은 드리프트를 완화하고 10초 HOI 비디오의 안정성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.