QUICK REVIEW

[论文解读] Structured 3D Latents for Scalable and Versatile 3D Generation

Jianfeng Xiang, Zhiqing Lv|arXiv (Cornell University)|Dec 2, 2024

Computer Graphics and Visualization Techniques被引用 5

一句话总结

提出结构化潜在变量（SLat）来以稀疏方式编码3D资产并融合密集的多视图特征，从而通过 rectified flow transformers 解码为 Radiance Fields、3D Gaussians 和网格；在最多 2B 参数和 500K 对象上进行训练，用于文本/图像条件的生成和灵活编辑。

ABSTRACT

We introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a sparsely-populated 3D grid with dense multiview visual features extracted from a powerful vision foundation model, comprehensively capturing both structural (geometry) and textural (appearance) information while maintaining flexibility during decoding. We employ rectified flow transformers tailored for SLAT as our 3D generation models and train models with up to 2 billion parameters on a large 3D asset dataset of 500K diverse objects. Our model generates high-quality results with text or image conditions, significantly surpassing existing methods, including recent ones at similar scales. We showcase flexible output format selection and local 3D editing capabilities which were not offered by previous models. Code, model, and data will be released.

研究动机与目标

开发一个统一、通用的潜在空间，用于在不同表示之间实现高质量的3D生成。
使用稀疏的3D结构与来自视觉基础模型的密集多视图视觉特征融合，编码几何和外观。
实现从SLat到多种3D格式的高保真解码，并具备可编辑性。
在训练阶段消除对3D拟合的需求，并支持无需微调的局部3D编辑。

提出的方法

将Structured Latents (SLat)定义为附着在与表面相交的活动体素上的稀疏局部潜在变量集合。
通过随机视图和DINOv2编码器聚合密集的多视图特征，形成体素特征 f_i。
使用带变换器骨干的稀疏VAE将 f 编码为 z，并解码为多种3D表示。
提供针对3D Gaussians、Radiance Fields和网格的解码器，并设定各自的表示损失（L1、D-SSIM、LPIPS 等）。
采用 rectified flow transformers 的两阶段生成：先生成稀疏结构 p_i，然后生成局部潜在变量 z_i。
在约 500K 个对象上训练，参数规模高达 2B；通过 CFG 和跨注意力使用文本或图像条件；利用 CLIP/DINOv2 进行条件建模。

实验结果

研究问题

RQ1一个统一的结构化潜在空间是否能够在文本或图像条件下，在多种输出格式（Radiance Fields、3D Gaussians、网格）上实现高质量的3D生成？
RQ2将稀疏3D结构与密集的多视图特征结合，是否能够在无需3D拟合的情况下实现可扩展的高保真几何及外观建模？
RQ3在3D场景下，rectified flow transformers 是否比基于扩散的基线提升生成质量和对提示的对齐？
RQ4在该框架内，是否能够实现无微调的区域编辑和全局外观变体？

主要发现

SLat 能在多种表示之间实现高质量的3D重建，在外观和几何指标上优于基线。
两阶段生成结合 rectified flow transformers 相较扩散基线提升了对提示的对齐和整体质量。
将模型规模扩展到 XL（2B 参数）在 Toys4k 上的一致提高 CLIP 对齐与 FD/DINOV2 指标。
编辑策略实现变体与区域特定编辑且无需重新训练，利用结构与潜在变量的分离。
该方法支持输出格式包括 Radiance Fields、3D Gaussians 和网格，解码结果与提示高度匹配。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。