Skip to main content
QUICK REVIEW

[论文解读] 3D-LLM: Injecting the 3D World into Large Language Models

Yining Hong, Haoyu Zhen|arXiv (Cornell University)|Jul 24, 2023
Multimodal Machine Learning Applications被引用 39
一句话总结

本文介绍了 3D-LLMs,它们摄取 3D 点云及其特征以执行多种面向 3D 的任务,通过 3D-语言数据管线和带有 3D 定位机制的 2D VLM 骨干进行训练。

ABSTRACT

Large language models (LLMs) and Vision-Language Models (VLMs) have been proven to excel at multiple tasks, such as commonsense reasoning. Powerful as these models can be, they are not grounded in the 3D physical world, which involves richer concepts such as spatial relationships, affordances, physics, layout, and so on. In this work, we propose to inject the 3D world into large language models and introduce a whole new family of 3D-LLMs. Specifically, 3D-LLMs can take 3D point clouds and their features as input and perform a diverse set of 3D-related tasks, including captioning, dense captioning, 3D question answering, task decomposition, 3D grounding, 3D-assisted dialog, navigation, and so on. Using three types of prompting mechanisms that we design, we are able to collect over 300k 3D-language data covering these tasks. To efficiently train 3D-LLMs, we first utilize a 3D feature extractor that obtains 3D features from rendered multi- view images. Then, we use 2D VLMs as our backbones to train our 3D-LLMs. By introducing a 3D localization mechanism, 3D-LLMs can better capture 3D spatial information. Experiments on ScanQA show that our model outperforms state-of-the-art baselines by a large margin (e.g., the BLEU-1 score surpasses state-of-the-art score by 9%). Furthermore, experiments on our held-in datasets for 3D captioning, task composition, and 3D-assisted dialogue show that our model outperforms 2D VLMs. Qualitative examples also show that our model could perform more tasks beyond the scope of existing LLMs and VLMs. Project Page: : https://vis-www.cs.umass.edu/3dllm/.

研究动机与目标

  • 通过使它们能够将 3D 点云及其特征作为输入,将 LLM 落地于三维世界。
  • 创建并扩展覆盖多样任务(标注、问答、定位、对话、导航)的 3D-语言数据集。
  • 借助将 3D 特征映射到相同特征空间来使用 2D 预训练 VLM 作为骨干网络。
  • 引入一个 3D 定位机制,以提升在 3D 空间中的空间推理能力。
  • 在 3D 视觉–语言基准上显示出相对于现有方法的性能提升。

提出的方法

  • 使用三条提示流程结合 ChatGPT 与 3D 场景信息生成大规模的 3D-语言数据(超过 30 万对)。
  • 使用 Direct Reconstruction、Feature Fusion(gradslam)或 Neural Field 方法从呈现的多视图图像中提取 3D 特征,组装成 <N, D_v> 的 3D 特征。
  • 使用 2D VLM 骨干(如 Flamingo、BLIP-2)结合感知者式结构来处理 3D 特征,而无需从零开始训练。
  • 用正弦位置嵌入增强 3D 特征,并引入位置标记(location tokens)到 LLM 词汇表以编码 3D 空间信息。
  • 通过语言建模损失进行训练;在保留数据集的 ScanQA 及内部的 3D 任务(标注、定位、对话、任务分解)上进行评估。

实验结果

研究问题

  • RQ13D 表示作为输入是否能提升基于语言模型的对 3D 任务的推理能力(相较于仅使用 2D 输入)?
  • RQ2如何高效生成并对齐用于训练 3D-LLMs 的大规模 3D-语言数据?
  • RQ33D 定位机制是否能提升 LLM 在 3D 空间中的理解与定位能力?
  • RQ4在像 ScanQA 这样的 3D 为中心的基准上,3D-LLMs 是否优于 2D VLMs 与 LLM 基线?
  • RQ5不同的 3D 特征提取策略对最终 3D-LLM 性能有哪些影响?

主要发现

BLEU-1BLEU-2BLEU-3BLEU-4METEOR 指标ROUGE-LCIDEREM
VoteNet+MCAN*28.016.710.86.211.429.854.717.3
ScanRefer+MCAN*26.916.611.67.911.53055.418.6
ScanQA*30.220.415.110.113.133.364.921.0
LLaVA(zero-shot)7.12.60.90.310.512.35.70.0
flamingo-SingleImage23.814.59.28.510.729.65216.9
flamingo-MultiView25.615.29.28.411.331.15518.0
BLIP2-flant5-SingleImage28.615.19.05.110.625.842.613.3
BLIP2-flant5-MultiView29.716.29.85.911.326.645.713.6
3D-LLM (flamingo)30.317.812.07.212.232.359.220.4
3D-LLM (BLIP2-opt)35.922.516.09.413.834.063.819.3
3D-LLM (BLIP2-flant5)39.325.218.412.014.535.769.420.5
  • 3D-LLMs 在 ScanQA 上达到最先进的结果,BLEU-1 相较此前最好值提升约 9%。
  • 在内部数据集(标注、定位、对话、任务分解)上,3D-LLMs 在多项指标上优于 2D VLMs。
  • 3D-LLMs 在不依赖显式对象表示的情况下,使用整体的 3D 特征表现出色。
  • 采用 BLIP2-flant5 骨干的 3D-LLM 在 ScanQA 验证集上达到 BLEU-1 39.3 和 BLEU-4 25.2,相较于基线有提升。
  • 在各项指标上,使用 BLIP2-flanT5 与 BLIP2-opt 骨干的 3D-LLMs 超越基于 Flamingo 的变体与单视角基线。
  • 定性结果显示其在现有 LLM 与 VLM 能力之外具有更广泛的任务能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。