Skip to main content
QUICK REVIEW

[논문 리뷰] Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Agniv Sharma, Xianghui Xie|arXiv (Cornell University)|2026. 03. 12.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

Hoi3DGen은 3D 인간–물체 상호작용에 대한 고품질 텍스트 캡션을 자동으로 큐레이션하고 시야 조건이 반영된 텍스트-투-이미지 plus 3D 리프팅 파이프라인을 사용하여 텍스처가 입혀지고 의미적으로 등록된 HOI 메시를 애니메이션 가능한 SMPL 모델과 함께 생성하며, 텍스트 일관성 및 3D 품질에서 베이스라인을 능가합니다.

ABSTRACT

Modeling and generating 3D human-object interactions from text is crucial for applications in AR, XR, and gaming. Existing approaches often rely on score distillation from text-to-image models, but their results suffer from the Janus problem and do not follow text prompts faithfully due to the scarcity of high-quality interaction data. We introduce Hoi3DGen, a framework that generates high-quality textured meshes of human-object interaction that follow the input interaction descriptions precisely. We first curate realistic and high-quality interaction data leveraging multimodal large language models, and then create a full text-to-3D pipeline, which achieves orders-of-magnitude improvements in interaction fidelity. Our method surpasses baselines by 4-15x in text consistency and 3-7x in 3D model quality, exhibiting strong generalization to diverse categories and interaction types, while maintaining high-quality 3D generation.

연구 동기 및 목표

  • AR/VR 및 게임용 텍스트로부터의 faithful 3D HOI 생성의 필요성에 대한 동기 부여.
  • 다중 모달 LLM을 활용하여 3D HOI에 대한 고품질의 상세 텍스트 캡션 큐레이션.
  • 접촉 의미를 보존하는 텍스트-투-이미지 및 2D-투-3D 리프팅 파이프라인 개발.
  • 애니메이션 가능한 SMPL 모델에 3D HOI 메시의 의미론적 등록 및 세분화.
  • 베이스라인 대비 텍스트 일관성 및 3D 품질의 우수성 입증

제안 방법

  • Appearance, interaction, and final caption generation으로 캡션 생성을 분해하고 이를 오픈 소스 다중 모달 LLM으로 해결하는 자동 데이터 주석화.
  • 전면/좌/대각선 조건의 상호작용 이미지를 생성하기 위해 카메라 뷰 프롬프트를 추가한 SANA 기반 확산 모델을 미세 조정하여 뷰 조건부 2D 생성.
  • Flux를 이용한 텍스처 재텍스처링으로 3D 출력의 텍스처 선명도 향상.
  • 고품질 2D 이미지에서 다수의 텍스처가 있는 HOI 메시를 얻기 위한 Hunyuan3D를 통한 3D 리프팅.
  • Grounded-Segment Anything 2 (GSAM2)로 3D HOI 메시를 인간 및 물체 부분으로 분할 및 정합하고 SMPL 몸체 모델을 정렬하여 애니메이션 가능하고 의미적으로 라벨링된 HOI를 얻음

실험 결과

연구 질문

  • RQ1자동화된 고품질 HOI 데이터의 텍스트 설명을 생성하고 이를 이용해 2D 확산 모델을 미세 조정하여 faithful HOI 이미지를 생산할 수 있는가?
  • RQ2뷰 조건부 및 목표 데이터 큐레이션이 3D HOI 생성의 충실도와 접촉 의미를 개선하는가?
  • RQ33D HOI 메시를 SMPL과 정확하게 세분화하고 정합하여 의미론적으로 의미 있고 애니메이션 가능한 모델을 얻을 수 있는가?
  • RQ4제안된 방법이 텍스트 일관성과 HOI 생성의 3D 품질에서 베이스라인을 능가하는가?

주요 결과

MethodGPT (Text)↑CLIP (Text)↑Contact (Text)↑User (Text)↑GPT (3D)↑User (3D)↑
TRELLIS0.040.32N/A3.44%0.2110.16%
InterFusion0.150.35N/A5.47%0.003.28%
Hoi3DGen (Ours)0.810.4290%91.09%0.7985.56%
  • Hoi3DGen은 텍스트-투-3D 일관성에서 베이스라인 대비 4–15× 개선을 보였다.
  • Hoi3DGen은 3D 모델 품질에서 베이스라인 대비 3–7× 개선을 달성했다.
  • 시스템은 입력 프롬프트의 접촉을 약 90%의 접촉 정확도로 따라간다.
  • 시야 조건부 샘플링이 3개의 2D 뷰로 이루어질 때 3D 접촉 충실도를 크게 향상시킨다.
  • 제한 제거 연구(ablation)에서 고품질 인터랙션 데이터와 재텍스처링이 성능에 중요한 요소임이 확인되었다.
  • 사용자 연구에서 텍스트 일관성 및 3D 품질 측면에서 Hoi3DGen이 베이스라인 방법보다 강한 선호를 얻었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.