QUICK REVIEW

[논문 리뷰] Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Agniv Sharma, Xianghui Xie|arXiv (Cornell University)|2026. 03. 12.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

Hoi3DGen은 3D 인간–물체 상호작용에 대한 고품질 텍스트 캡션을 자동으로 큐레이션하고 시야 조건이 반영된 텍스트-투-이미지 plus 3D 리프팅 파이프라인을 사용하여 텍스처가 입혀지고 의미적으로 등록된 HOI 메시를 애니메이션 가능한 SMPL 모델과 함께 생성하며, 텍스트 일관성 및 3D 품질에서 베이스라인을 능가합니다.

ABSTRACT

Modeling and generating 3D human-object interactions from text is crucial for applications in AR, XR, and gaming. Existing approaches often rely on score distillation from text-to-image models, but their results suffer from the Janus problem and do not follow text prompts faithfully due to the scarcity of high-quality interaction data. We introduce Hoi3DGen, a framework that generates high-quality textured meshes of human-object interaction that follow the input interaction descriptions precisely. We first curate realistic and high-quality interaction data leveraging multimodal large language models, and then create a full text-to-3D pipeline, which achieves orders-of-magnitude improvements in interaction fidelity. Our method surpasses baselines by 4-15x in text consistency and 3-7x in 3D model quality, exhibiting strong generalization to diverse categories and interaction types, while maintaining high-quality 3D generation.

연구 동기 및 목표

AR/VR 및 게임용 텍스트로부터의 faithful 3D HOI 생성의 필요성에 대한 동기 부여.
다중 모달 LLM을 활용하여 3D HOI에 대한 고품질의 상세 텍스트 캡션 큐레이션.
접촉 의미를 보존하는 텍스트-투-이미지 및 2D-투-3D 리프팅 파이프라인 개발.
애니메이션 가능한 SMPL 모델에 3D HOI 메시의 의미론적 등록 및 세분화.
베이스라인 대비 텍스트 일관성 및 3D 품질의 우수성 입증

제안 방법

Appearance, interaction, and final caption generation으로 캡션 생성을 분해하고 이를 오픈 소스 다중 모달 LLM으로 해결하는 자동 데이터 주석화.
전면/좌/대각선 조건의 상호작용 이미지를 생성하기 위해 카메라 뷰 프롬프트를 추가한 SANA 기반 확산 모델을 미세 조정하여 뷰 조건부 2D 생성.
Flux를 이용한 텍스처 재텍스처링으로 3D 출력의 텍스처 선명도 향상.
고품질 2D 이미지에서 다수의 텍스처가 있는 HOI 메시를 얻기 위한 Hunyuan3D를 통한 3D 리프팅.
Grounded-Segment Anything 2 (GSAM2)로 3D HOI 메시를 인간 및 물체 부분으로 분할 및 정합하고 SMPL 몸체 모델을 정렬하여 애니메이션 가능하고 의미적으로 라벨링된 HOI를 얻음

실험 결과

연구 질문

RQ1자동화된 고품질 HOI 데이터의 텍스트 설명을 생성하고 이를 이용해 2D 확산 모델을 미세 조정하여 faithful HOI 이미지를 생산할 수 있는가?
RQ2뷰 조건부 및 목표 데이터 큐레이션이 3D HOI 생성의 충실도와 접촉 의미를 개선하는가?
RQ33D HOI 메시를 SMPL과 정확하게 세분화하고 정합하여 의미론적으로 의미 있고 애니메이션 가능한 모델을 얻을 수 있는가?
RQ4제안된 방법이 텍스트 일관성과 HOI 생성의 3D 품질에서 베이스라인을 능가하는가?

주요 결과

Method	GPT (Text)↑	CLIP (Text)↑	Contact (Text)↑	User (Text)↑	GPT (3D)↑	User (3D)↑
TRELLIS	0.04	0.32	N/A	3.44%	0.21	10.16%
InterFusion	0.15	0.35	N/A	5.47%	0.00	3.28%
Hoi3DGen (Ours)	0.81	0.42	90%	91.09%	0.79	85.56%

Hoi3DGen은 텍스트-투-3D 일관성에서 베이스라인 대비 4–15× 개선을 보였다.
Hoi3DGen은 3D 모델 품질에서 베이스라인 대비 3–7× 개선을 달성했다.
시스템은 입력 프롬프트의 접촉을 약 90%의 접촉 정확도로 따라간다.
시야 조건부 샘플링이 3개의 2D 뷰로 이루어질 때 3D 접촉 충실도를 크게 향상시킨다.
제한 제거 연구(ablation)에서 고품질 인터랙션 데이터와 재텍스처링이 성능에 중요한 요소임이 확인되었다.
사용자 연구에서 텍스트 일관성 및 3D 품질 측면에서 Hoi3DGen이 베이스라인 방법보다 강한 선호를 얻었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.