[论文解读] GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation
GRM 是一个前馈式 transformer 基础模型,通过预测像素对齐的 3D 高斯分布来从四个稀疏视图重建 3D 场景,实现快速推理(≈0.1s)并达到最先进的质量,且在与扩散模型配对时能够实现文本与图像到 3D 的生成。
We introduce GRM, a large-scale reconstructor capable of recovering a 3D asset from sparse-view images in around 0.1s. GRM is a feed-forward transformer-based model that efficiently incorporates multi-view information to translate the input pixels into pixel-aligned Gaussians, which are unprojected to create a set of densely distributed 3D Gaussians representing a scene. Together, our transformer architecture and the use of 3D Gaussians unlock a scalable and efficient reconstruction framework. Extensive experimental results demonstrate the superiority of our method over alternatives regarding both reconstruction quality and efficiency. We also showcase the potential of GRM in generative tasks, i.e., text-to-3D and image-to-3D, by integrating it with existing multi-view diffusion models. Our project website is at: https://justimyhxu.github.io/projects/grm/.
研究动机与目标
- 为机器人、游戏和建筑等应用推动更快更高保真度的 3D 重建与生成。
- 提出一个可扩展的前馈框架,通过使用 3D 高斯来表示场景,避免重体积渲染。
- 展示基于 transformer 的架构能够高效地将多视图输入转换为密集、像素对齐的 3D 高斯分布。
- 证明 GRM 能在稀疏视图重建中达到最先进的质量与速度,并通过扩散模型实现 3D 生成。
提出的方法
- 引入像素对齐的 3D 高斯以将输入像素与沿视线的 3D 空间连接起来。
- 使用纯 transformer 编码器融合多视图特征,并采用带窗口自注意力的 transformer 基上采样器来恢复高频细节。
- 通过每视图属性图预测高斯属性(深度、旋转、尺度、透明度、SH 系数),再反投影为密集 3D 高斯并用高斯投影进行渲染。
- 以 4 个输入视图和来自额外视图及对象掩模的监督进行训练,以降低浮点雾点并提升保真度。
- 将 GRM 与多视图扩散模型结合,以实现文本到 3D 和图像到 3D 的生成。
- 采用基于 Sigmoid 的尺度激活,并在预定义范围内进行线性插值以稳定训练。
实验结果
研究问题
- RQ1纯粹以 transformer 为基础的稀疏视图重建器是否能够从四个输入视图生成高保真度的 3D 资产?
- RQ2将场景表示为像素对齐的 3D 高斯是否相比于三平面对/NeRF 方法在重建效率和质量上有提升?
- RQ3将 GRM 与扩 diffusion 疑虑先验结合后,是否能够实现快速文本到 3D 与图像到 3D 的生成?
- RQ4上采样策略和 alpha 正则化对 3D 重建质量有何影响?
主要发现
| 方法 | #视图 | PSNR↑ | SSIM↑ | LPIPS↓ | INF. Time↓ | REND. Time↓ |
|---|---|---|---|---|---|---|
| GS [43] | 4 | 21.22 | 0.854 | 0.140 | 9 min | Real time |
| IBRNet [100] | 16 | 21.50 | 0.877 | 0.155 | 21 sec | 1.2 sec |
| SparseNeuS [54,59] | 16 | 22.60 | 0.873 | 0.132 | 6 sec | Real time |
| LGM [92] | 4 | 23.79 | 0.882 | 0.097 | 0.07 sec | Real time |
| MV-LRM [46] | 4 | 25.38 | 0.897 | 0.068 | 0.25 sec | 1.7 sec |
| GRM (Ours) | 4 | 30.05 | 0.906 | 0.052 | 0.11 sec | Real time |
- GRM 在稀疏视图对象重建(4 视图)上相对于基线方法实现了更高的重建质量,PSNR 30.05、SSIM 0.906、LPIPS 0.052、INF 时间 0.11s,且实现实时渲染。
- 与使用更多视图的基线相比,GRM 提供了更高的保真度和更快的推理速度,显著降低了重建时间。
- 在单幅图像到 3D 的生成中,GRM 在 PSNR、SSIM、LPIPS、CLIP 和 FID 上优于相关的高斯基方法及非高斯方法,同时保持较快的推理时间(≈5s)。
- 在与多视图扩散头结合的文本到 3D 生成中,GRM 实现了具有竞争力的 CLIP 基指标和用户偏好,同时速度明显快于基于优化的方法(8s)。
- 消融研究表明,基于 transformer 的上采样器、像素对齐的高斯以及 alpha 正则化各自对提升 PSNR/SSIM、降低 LPIPS 有贡献;深度预测在几何保真度方面优于仅 XYZ 的回归。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。