QUICK REVIEW

[논문 리뷰] Structured 3D Latents for Scalable and Versatile 3D Generation

Jianfeng Xiang, Zhiqing Lv|arXiv (Cornell University)|2024. 12. 02.

Computer Graphics and Visualization Techniques인용 수 5

한 줄 요약

Structured LATents (SLat)을 도입하여 3D 자산을 희소하게 인코딩하고 조밀한 다중 뷰 특징을 융합하며, 보정된 흐름 트랜스포머를 통해 Radiance Fields, 3D Gaussians, 메시로의 디코딩을 가능하게 한다; 텍스트/이미지 조건 생성 및 유연한 편집을 위해 최대 2B 매개변수 및 500K 객체에서 학습된다.

ABSTRACT

We introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a sparsely-populated 3D grid with dense multiview visual features extracted from a powerful vision foundation model, comprehensively capturing both structural (geometry) and textural (appearance) information while maintaining flexibility during decoding. We employ rectified flow transformers tailored for SLAT as our 3D generation models and train models with up to 2 billion parameters on a large 3D asset dataset of 500K diverse objects. Our model generates high-quality results with text or image conditions, significantly surpassing existing methods, including recent ones at similar scales. We showcase flexible output format selection and local 3D editing capabilities which were not offered by previous models. Code, model, and data will be released.

연구 동기 및 목표

표현 간 양상을 넘어 고품질 3D 생성을 위한 단일하고 다재다능한 잠재 공간 개발.
비전 기초 모델로부터의 조밀한 다중 뷰 시각 특징과 융합된 희소한 3D 구조를 사용하여 기하 및 외관을 인코딩한다.
SLat에서 다중 3D 형식으로 높은 충실도와 편집 가능성을 갖고 디코딩을 가능하게 한다.
학습 중 3D 피팅의 필요성을 없애고 튜닝 없이 로컬 3D 편집을 지원한다.

제안 방법

Structured Latents (SLat)를 표면과 교차하는 활성 보셀에 연결된 희소한 로컬 잠재들의 집합으로 정의한다.
무작위 뷰와 DINOv2 인코더를 통해 조밀한 다중 뷰 특징을 모아 보셀 특징 f_i를 형성한다.
트랜스포머 백본을 갖춘 희소 VAE를 사용하여 f를 z로 인코드하고 여러 3D 표현으로 디코드한다.
3D 가우시안, Radiance Fields 및 메시에 대한 디코더를 제공하고 표현별 손실(L1, D-SSIM, LPIPS 등)을 사용한다.
정정된 흐름 트랜스포머를 이용한 두 단계 생성: 먼저 희소 구조 p_i를 생성하고, 그다음 로컬 잠재 z_i를 생성한다.
약 500K 개체에서 최대 2B 매개변수로 학습; CFG 및 교차 주의를 통해 텍스트 또는 이미지 조건을 사용하고; 조건부를 위해 CLIP/DINOv2를 활용한다.

실험 결과

연구 질문

RQ1텍스트 또는 이미지에서 Radiance Fields, 3D Gaussians, 메시 등 여러 출력 형식에 대해 단일 구조화 잠재 공간이 고품질의 3D 생성을 지원할 수 있는가?
RQ2희소한 3D 구조를 조밀한 다중 뷰 특징과 결합하는 것이 3D 피팅 없이도 확장 가능하고 고충실도의 기하와 외관 모델링을 가능하게 하는가?
RQ3정정된 흐름 트랜스포머가 3D 설정에서 확산 기반 기준선보다 생성 품질과 프롬프트 정렬을 개선하는가?
RQ4이 프레임워크에서 튜닝 없이 지역 편집 및 전역 외관 변형을 달성할 수 있는가?

주요 결과

SLat은 다양한 표현에 걸쳐 고품질 3D 재구성을 가능하게 하며 외관 및 기하 지표에서 기준선(baseline)을 능가한다.
정정된 흐름 트랜스포머를 이용한 두 단계 생성은 확산 기반 기준선 대비 프롬프트 정렬과 전반적 품질을 향상시킨다.
XL(2B 매개변수)까지 모델 크기를 확장하면 Toys4k에서 CLIP 정렬 및 FD/DINOV2 지표에서 일관된 향상을 보인다.
편집 전략은 구조와 잠재 간의 분리를 활용하여 재학습 없이도 변화 및 영역별 편집을 가능하게 한다.
이 방법은 Radiance Fields, 3D Gaussians, 메시를 포함한 출력 형식을 지원하며 디코딩 결과가 프롬프트와 밀접하게 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.