[论文解读] SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
SpatialVLM 在大规模合成的3D空间推理数据集上训练视觉-语言模型,使得定性和定量空间推理成为可能,包括从2D图像估算度量距离以及与LLMs的链式思考空间推理。
Understanding and reasoning about spatial relationships is a fundamental capability for Visual Question Answering (VQA) and robotics. While Vision Language Models (VLM) have demonstrated remarkable performance in certain VQA benchmarks, they still lack capabilities in 3D spatial reasoning, such as recognizing quantitative relationships of physical objects like distances or size differences. We hypothesize that VLMs' limited spatial reasoning capability is due to the lack of 3D spatial knowledge in training data and aim to solve this problem by training VLMs with Internet-scale spatial reasoning data. To this end, we present a system to facilitate this approach. We first develop an automatic 3D spatial VQA data generation framework that scales up to 2 billion VQA examples on 10 million real-world images. We then investigate various factors in the training recipe, including data quality, training pipeline, and VLM architecture. Our work features the first internet-scale 3D spatial reasoning dataset in metric space. By training a VLM on such data, we significantly enhance its ability on both qualitative and quantitative spatial VQA. Finally, we demonstrate that this VLM unlocks novel downstream applications in chain-of-thought spatial reasoning and robotics due to its quantitative estimation capability. Project website: https://spatial-vlm.github.io/
研究动机与目标
- 激发并解决当前VLM在3D空间推理方面的不足。
- 开发一个自动化、可扩展的数据生成流水线,从真实世界图像中创建3D空间推理的VQA数据。
- 在合成的空间问答数据上训练VLM,以提升定性与定量的空间推理能力。
- 展示在机器人、奖励注释以及与LLM协同的链式思考空间推理方面的下游收益。
提出的方法
- 使用开放词汇检测、度量深度估计、语义分割以及面向对象的字幕生成,从真实图像中提取对象上下文。
- 通过估计深度并将其转换为具有规范化坐标的3D点云,将2D上下文提升为3D。
- 在1000万张图像上使用模板化问题(定性与定量)生成2B个空间QA对。
- 在PaLM-E数据与SpatialVLM空间数据的混合数据上训练一个视觉-语言模型(PaLM-E家族),其中包含5%的空间令牌。
- 通过将SpatialVLM输出与大型语言模型(如GPT-4)协调,用于多步空间任务,从而实现链式思考的空间推理。
- 研究数据质量、训练流水线和ViT冻结对空间推理能力的影响。
实验结果
研究问题
- RQ1合成的3D空间推理数据是否能提升VLM回答定性与定量空间问题的能力?
- RQ2数据质量、训练策略和模型冻结如何影响空间推理表现?
- RQ3SpatialVLM 能否提供可靠的距离/尺度估计,以支持下游的机器人任务和链式思考推理?
主要发现
- SpatialVLM 在二元谓词任务上的定性空间推理准确率高于GPT-4V、LLaVA-1.5、InstructBLIP、PaLI、PaLM-E和PaLM 2-E(75.2% 对 68.0–60.7%)。
- SpatialVLM 在定量空间问题上的准确性更高,输出在距离估计方面常在范围内,在距离相关指标上超过基线。
- 与 SpatialVLM 数据共同训练在 OKVQA 和 VQA v2 上实现有竞争力的VQA性能(例如在没有 SpatialVLM 数据的 PaLM 2-E 上,VQA v2 提升了2.4%)。
- 解冻 ViT 提高了细粒度距离估计;冻结 ViT 在各距离范围上会降低准确性。
- 用嘈杂空间数据训练的VLM仍然学习通用的空间推理,对定量答案中的噪声水平具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。