Skip to main content
QUICK REVIEW

[论文解读] Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning

Rao Fu, Jingyu Liu|arXiv (Cornell University)|Mar 18, 2024
3D Modeling in Geospatial Applications被引用 8
一句话总结

Scene-LLM 是一个将自我视角和场景级别的三维视觉信息与 LLM 主干融合的 3D-视觉-语言模型,能够在室内场景中实现密集描述、3D-VQA 和交互式规划,在不进行大量微调的情况下也能达到较强的基准。

ABSTRACT

This paper introduces Scene-LLM, a 3D-visual-language model that enhances embodied agents' abilities in interactive 3D indoor environments by integrating the reasoning strengths of Large Language Models (LLMs). Scene-LLM adopts a hybrid 3D visual feature representation, that incorporates dense spatial information and supports scene state updates. The model employs a projection layer to efficiently project these features in the pre-trained textual embedding space, enabling effective interpretation of 3D visual information. Unique to our approach is the integration of both scene-level and ego-centric 3D information. This combination is pivotal for interactive planning, where scene-level data supports global planning and ego-centric data is important for localization. Notably, we use ego-centric 3D frame features for feature alignment, an efficient technique that enhances the model's ability to align features of small objects within the scene. Our experiments with Scene-LLM demonstrate its strong capabilities in dense captioning, question answering, and interactive planning. We believe Scene-LLM advances the field of 3D visual understanding and reasoning, offering new possibilities for sophisticated agent interactions in indoor settings.

研究动机与目标

  • 以利用 LLM 提升具备体现性的 3D 视觉推理能力为目标赋能具身智能体。
  • 开发一种混合的 3D 视觉特征表示,能够保留密集的空间信息并支持状态更新。
  • 通过一个轻量级投影层将密集的 3D 视觉特征与预训练的 LLM 表征对齐。
  • 在 3D-VQA 基准和交互式规划任务上展示 Scene-LLM 的卓越性能。
  • 提供一个可扩展的 3D-视觉-语言对齐数据生成管线。

提出的方法

  • 使用混合的 3D 点-体素表示来编码来自 3D 帧和场景的密集空间信息。
  • 通过一个轻量级投影层将 3D 特征投影到 LLM 的嵌入空间以实现对齐。
  • 两阶段训练:阶段 1 使用双坐标系的 3D 帧-语言数据预训练投影层;阶段 2 同时对投影层和 LLM 进行帧-和场景-语言数据的微调。
  • 使用非交互生成或两步法进行推理,应用于交互任务,包括自我视角帧更新和场景状态更新。
  • 生成一个大规模的 3D-视觉-语言数据集(≈190k 帧-语言对;≈500k 场景-指令对)以支持对齐和推理。
  • 利用两套坐标系(相机和世界)实现自我视角和场景中心的理解,以提升规划和定位能力。

实验结果

研究问题

  • RQ1一个统一的 3D-视觉-语言模型是否能够有效融合自我视角与场景级信息以实现交互式规划?
  • RQ2密集的 3D 表示通过体素下采样是否能够有效与 LLM 对齐并在场景变化中实现状态更新?
  • RQ3与先前的 3D-VLM 和基于 LLM 的规划器相比,Scene-LLM 在 3D-VQA 基准和交互式规划任务中的表现如何?
  • RQ4训练策略和数据模态(帧数据 vs 场景数据)对对齐和下游推理有何影响?

主要发现

  • Scene-LLM 在 ScanQA 和 SQA3D 等多个指标上无需任务特定微调即可达到最新性能。
  • 在微调仅需最少步骤的情况下,Scene-LLM 在交互式规划基准上表现强劲,超越高层次规划指标上的基线。
  • 双坐标系、密集的 3D 表示与体素下采样能够支持有效的状态更新与与 LLM 的对齐。
  • 自我视角更新与场景级更新对于鲁棒的交互式规划都至关重要,其中自我视角更新对于高层次规划尤为重要。
  • 帧数据预训练相较于仅场景预训练能够加速收敛并丰富概念理解。
  • 一个轻量级投影层足以将 3D 特征桥接到 LLM,避免使用重型视觉特征提取器。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。