[논문 리뷰] MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model
MVHOI는 3D foundation 모델을 Unified Object Anchor로 활용하여 다뷰 객체 참조와 함께 3D 인지 HOI 비디오 재연을 가능하게 하고 장기 비디오의 충실도와 시간적 안정성을 향상시키는 두 단계 프레임워크를 제시한다.
Human-Object Interaction (HOI) video reenactment with realistic motion remains a frontier in expressive digital human creation. Existing approaches primarily handle simple image-plane motion (e.g., in-plane translations), struggling with complex non-planar manipulations like out-of-plane reorientation. In this paper, we propose MVHOI, a two-stage HOI video reenactment framework that bridges multi-view reference conditions and video foundation models via a 3D Foundation Model (3DFM). The 3DFM first produces view-consistent object priors conditioned on implicit motion dynamics across novel viewpoints. A controllable video generation model then synthesizes high-fidelity object texture by incorporating multi-view reference images, ensuring appearance consistency via a reasonable retrieval mechanism. By enabling these two stages to mutually reinforce one another during the inference phase, our framework shows superior performance in generating long-duration HOI videos with intricate object manipulations. Extensive experiments show substantial improvements over prior approaches, especially for HOI with complex 3D object manipulations.
연구 동기 및 목표
- 단순한 평면 내 움직임을 넘는 복잡한 3D 객체 조작 하에서 HOI 비디오 재연을 촉진한다.
- 3D foundation 모델에서 얻은 Unified Object Anchor를 기반으로 한 3D 인지 객체 재연 모듈을 도입한다.
- 다뷰 텍스처 합성 및 검색 메커니즘을 개발하여 시점 간 외관 일관성을 유지한다.
- 장기 비디오에 대해 거친 3D 주도 재연과 고충실도 비디오 생성을 상호 강화할 수 있도록 한다.
제안 방법
- Stage I: 다뷰 참조와 출처 모션을 3D foundation 모델의 잠재 공간에서 결합한 Unified Object Anchor를 사용하여 거칠고 시점-일관된 대상 객체 가이던스를 생성하는 3D 인지 객체 재연.
- Stage II: DiT 기반 백본과 다뷰 어댑터를 사용한 다참조 비디오 생성으로 거친 단계와 기준 뷰가 안내하는 고주파 텍스처를 합성한다.
- 추론 시 주의 강화로 기하학적 편향을 확산 주의(attention)에 주입하여 시점-일관된 참조에 대한 외관 검색을 유도한다.
- 장기간 시퀀스에서 드리프트를 완화하기 위해 앵커-뷰 계획과 고품질 비디오 정제를 교차 반복하는 장기 비디오 추론.
실험 결과
연구 질문
- RQ1다뷰 객체 참조를 3D foundation 모델과 어떻게 통합하여 큰 시점 변화에서도 안정적이고 시점-일관적인 HOI 재연을 가능하게 할 수 있는가?
- RQ2유니파이드 3D 잠재 앵커가 드라이빙 소스의 복잡한 3D 객체 모션을 타깃 객체로 전달하면서 외관을 보존하는 데 어떤 개선을 제공하는가?
- RQ3다뷰 텍스처 검색 메커니즘을 3D 인지 재연 단계와 통합하면 HOI 비디오 생성에서 텍스처 드리프트와 시점 혼동이 감소하는가?
- RQ4시간적 안정성과 정체성 보존을 위한 장기간 HOI 비디오 생성에 어떤 학습 및 추론 전략이 가장 잘 작동하는가?
주요 결과
- MVHOI는 자체 재연 및 교차 재연 설정 모두에서 최첨단 기법 대비 우수한 성능을 달성하며 재구성 충실도와 시간적 일관성을 향상시킨다.
- 다뷰 참조를 활용한 3D 인지 객체 재연 모듈(UOA)은 DisMo 기반 접근 방식보다 더 충실한 외관 및 기하학적 무결성을 제공한다.
- Stage I 주의 편향에 의해 유도된 다뷰 텍스처 검색 메커니즘은 고충실도 비디오 생성 중 텍스처 불일치 및 시점 혼동을 감소시킨다.
- 교차 반복적 장기 비디오 추론 전략은 드리프트를 완화하고 10초 HOI 비디오의 안정성을 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.