Skip to main content
QUICK REVIEW

[论文解读] Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models

Huy Thuc Ha, Shuran Song|arXiv (Cornell University)|Jul 23, 2022
Multimodal Machine Learning Applications被引用 21
一句话总结

语义抽象(SemAbs)通过相关性图使2D视觉-语言模型具备3D空间推理,能够进行开放世界的3D场景理解并实现对新词汇和领域的零-shot泛化。它展示了开放词汇语义场景完成和可视化遮挡对象定位等任务。

ABSTRACT

We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data is available at https://semantic-abstraction.cs.columbia.edu/

研究动机与目标

  • 解决用于开放世界任务的3D训练数据匮乏和多样性有限的问题。
  • 利用大规模的2D视觉-语言模型在学习3D空间能力的同时提供语义推理,且以语义无关的方式进行。
  • 开发一个模块化框架(SemAbs),将2D VLM输出转换为部分观测或隐藏对象的3D占据。
  • 展示测试开放世界泛化的任务:开放词汇语义场景完成和视觉遮挡对象定位。
  • 展示从合成训练到现实世界领域的零-shot传输(sim2real)。

提出的方法

  • 语义抽象(SemAbs)由一个语义感知的包装器组成,该包装器利用预训练的2D VLM(如CLIP)将RGB-D输入和文本标签转换为相关性图。
  • 相关性图投影到3D空间,形成点云,作为语义抽象3D模块的输入。
  • 一个3D UNet将体素化的相关性图编码为潜在体积,学习的MLP解码查询点的占据概率。
  • 仅对3D模块在有限的合成3D数据集上进行训练;语义推理外包给2D VLM,从而实现开放世界泛化。
  • 多尺度相关性提取器在检测小型或长尾对象方面提供显著提升,并以基于ViT的CLIP实现以提高效率。
  • 该框架对VLM无关,已在OVSSC和VOOL任务上演示,并在AI2-THOR仿真器中具有数据生成管线。

实验结果

研究问题

  • RQ1SemAbs是否能够通过将语义推理委托给2D VLM来实现开放世界3D场景理解,同时学习语义无关的3D空间推理?
  • RQ2当在有限的合成数据上进行训练时,语义抽象对新词汇、对象、材料、光照和现实世界领域的泛化能力有多强?
  • RQ3在新房间、视觉效果、同义词和类别方面,开放世界3D任务(OVSSC和VOOL)的表现如何?
  • RQ4相关性图的质量对3D完成和定位性能的影响是什么?

主要发现

ApproachNovelRoomVisualSynonymsClass
SemAware32.231.920.20.0
SemAbs+ [18]26.624.317.812.2
Ours40.136.433.437.9
  • SemAbs在开放世界语义场景完成和对象定位方面,优于仅具有语义感知的基线和基于CLIP的空间基线,涵盖新房间、视觉效果、同义词和类别。
  • 与将语义和3D推理均委托给2D VLM的基线相比,增加语义抽象显著提升了泛化能力。
  • 多尺度相关性提取器在检测小型或长尾对象方面带来显著提升,并在效率上优于天真实现。
  • 该方法展示零-shot、sim2real传输,在对现实世界Matterport扫描进行完成和定位时取得成果,尽管是在合成数据上训练的。
  • 在NYUv2 CAD上,SemAbs实现了零-shot的广义类别预测(多达894个类别)以及对长尾对象的稳健表现,凸显开放世界能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。