[논문 리뷰] Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D
Hoi3DGen은 3D 인간–물체 상호작용에 대한 고품질 텍스트 캡션을 자동으로 큐레이션하고 시야 조건이 반영된 텍스트-투-이미지 plus 3D 리프팅 파이프라인을 사용하여 텍스처가 입혀지고 의미적으로 등록된 HOI 메시를 애니메이션 가능한 SMPL 모델과 함께 생성하며, 텍스트 일관성 및 3D 품질에서 베이스라인을 능가합니다.
Modeling and generating 3D human-object interactions from text is crucial for applications in AR, XR, and gaming. Existing approaches often rely on score distillation from text-to-image models, but their results suffer from the Janus problem and do not follow text prompts faithfully due to the scarcity of high-quality interaction data. We introduce Hoi3DGen, a framework that generates high-quality textured meshes of human-object interaction that follow the input interaction descriptions precisely. We first curate realistic and high-quality interaction data leveraging multimodal large language models, and then create a full text-to-3D pipeline, which achieves orders-of-magnitude improvements in interaction fidelity. Our method surpasses baselines by 4-15x in text consistency and 3-7x in 3D model quality, exhibiting strong generalization to diverse categories and interaction types, while maintaining high-quality 3D generation.
연구 동기 및 목표
- AR/VR 및 게임용 텍스트로부터의 faithful 3D HOI 생성의 필요성에 대한 동기 부여.
- 다중 모달 LLM을 활용하여 3D HOI에 대한 고품질의 상세 텍스트 캡션 큐레이션.
- 접촉 의미를 보존하는 텍스트-투-이미지 및 2D-투-3D 리프팅 파이프라인 개발.
- 애니메이션 가능한 SMPL 모델에 3D HOI 메시의 의미론적 등록 및 세분화.
- 베이스라인 대비 텍스트 일관성 및 3D 품질의 우수성 입증
제안 방법
- Appearance, interaction, and final caption generation으로 캡션 생성을 분해하고 이를 오픈 소스 다중 모달 LLM으로 해결하는 자동 데이터 주석화.
- 전면/좌/대각선 조건의 상호작용 이미지를 생성하기 위해 카메라 뷰 프롬프트를 추가한 SANA 기반 확산 모델을 미세 조정하여 뷰 조건부 2D 생성.
- Flux를 이용한 텍스처 재텍스처링으로 3D 출력의 텍스처 선명도 향상.
- 고품질 2D 이미지에서 다수의 텍스처가 있는 HOI 메시를 얻기 위한 Hunyuan3D를 통한 3D 리프팅.
- Grounded-Segment Anything 2 (GSAM2)로 3D HOI 메시를 인간 및 물체 부분으로 분할 및 정합하고 SMPL 몸체 모델을 정렬하여 애니메이션 가능하고 의미적으로 라벨링된 HOI를 얻음
실험 결과
연구 질문
- RQ1자동화된 고품질 HOI 데이터의 텍스트 설명을 생성하고 이를 이용해 2D 확산 모델을 미세 조정하여 faithful HOI 이미지를 생산할 수 있는가?
- RQ2뷰 조건부 및 목표 데이터 큐레이션이 3D HOI 생성의 충실도와 접촉 의미를 개선하는가?
- RQ33D HOI 메시를 SMPL과 정확하게 세분화하고 정합하여 의미론적으로 의미 있고 애니메이션 가능한 모델을 얻을 수 있는가?
- RQ4제안된 방법이 텍스트 일관성과 HOI 생성의 3D 품질에서 베이스라인을 능가하는가?
주요 결과
| Method | GPT (Text)↑ | CLIP (Text)↑ | Contact (Text)↑ | User (Text)↑ | GPT (3D)↑ | User (3D)↑ |
|---|---|---|---|---|---|---|
| TRELLIS | 0.04 | 0.32 | N/A | 3.44% | 0.21 | 10.16% |
| InterFusion | 0.15 | 0.35 | N/A | 5.47% | 0.00 | 3.28% |
| Hoi3DGen (Ours) | 0.81 | 0.42 | 90% | 91.09% | 0.79 | 85.56% |
- Hoi3DGen은 텍스트-투-3D 일관성에서 베이스라인 대비 4–15× 개선을 보였다.
- Hoi3DGen은 3D 모델 품질에서 베이스라인 대비 3–7× 개선을 달성했다.
- 시스템은 입력 프롬프트의 접촉을 약 90%의 접촉 정확도로 따라간다.
- 시야 조건부 샘플링이 3개의 2D 뷰로 이루어질 때 3D 접촉 충실도를 크게 향상시킨다.
- 제한 제거 연구(ablation)에서 고품질 인터랙션 데이터와 재텍스처링이 성능에 중요한 요소임이 확인되었다.
- 사용자 연구에서 텍스트 일관성 및 3D 품질 측면에서 Hoi3DGen이 베이스라인 방법보다 강한 선호를 얻었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.