QUICK REVIEW

[论文解读] Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models

Huy Thuc Ha, Shuran Song|arXiv (Cornell University)|Jul 23, 2022

Multimodal Machine Learning Applications被引用 21

一句话总结

语义抽象（SemAbs）通过相关性图使2D视觉-语言模型具备3D空间推理，能够进行开放世界的3D场景理解并实现对新词汇和领域的零-shot泛化。它展示了开放词汇语义场景完成和可视化遮挡对象定位等任务。

ABSTRACT

We study open-world 3D scene understanding, a family of tasks that require agents to reason about their 3D environment with an open-set vocabulary and out-of-domain visual inputs - a critical skill for robots to operate in the unstructured 3D world. Towards this end, we propose Semantic Abstraction (SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D spatial capabilities, while maintaining their zero-shot robustness. We achieve this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial and geometric reasoning skills on top of those abstractions in a semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two open-world 3D scene understanding tasks: 1) completing partially observed objects and 2) localizing hidden objects from language descriptions. Experiments show that SemAbs can generalize to novel vocabulary, materials/lighting, classes, and domains (i.e., real-world scans) from training on limited 3D synthetic data. Code and data is available at https://semantic-abstraction.cs.columbia.edu/

研究动机与目标

解决用于开放世界任务的3D训练数据匮乏和多样性有限的问题。
利用大规模的2D视觉-语言模型在学习3D空间能力的同时提供语义推理，且以语义无关的方式进行。
开发一个模块化框架（SemAbs），将2D VLM输出转换为部分观测或隐藏对象的3D占据。
展示测试开放世界泛化的任务：开放词汇语义场景完成和视觉遮挡对象定位。
展示从合成训练到现实世界领域的零-shot传输（sim2real）。

提出的方法

语义抽象（SemAbs）由一个语义感知的包装器组成，该包装器利用预训练的2D VLM（如CLIP）将RGB-D输入和文本标签转换为相关性图。
相关性图投影到3D空间，形成点云，作为语义抽象3D模块的输入。
一个3D UNet将体素化的相关性图编码为潜在体积，学习的MLP解码查询点的占据概率。
仅对3D模块在有限的合成3D数据集上进行训练；语义推理外包给2D VLM，从而实现开放世界泛化。
多尺度相关性提取器在检测小型或长尾对象方面提供显著提升，并以基于ViT的CLIP实现以提高效率。
该框架对VLM无关，已在OVSSC和VOOL任务上演示，并在AI2-THOR仿真器中具有数据生成管线。

实验结果

研究问题

RQ1SemAbs是否能够通过将语义推理委托给2D VLM来实现开放世界3D场景理解，同时学习语义无关的3D空间推理？
RQ2当在有限的合成数据上进行训练时，语义抽象对新词汇、对象、材料、光照和现实世界领域的泛化能力有多强？
RQ3在新房间、视觉效果、同义词和类别方面，开放世界3D任务（OVSSC和VOOL）的表现如何？
RQ4相关性图的质量对3D完成和定位性能的影响是什么？

主要发现

Approach	Novel	Room	Visual	Synonyms
SemAware	32.2	31.9	20.2	0.0
SemAbs+ [18]	26.6	24.3	17.8	12.2
Ours	40.1	36.4	33.4	37.9

SemAbs在开放世界语义场景完成和对象定位方面，优于仅具有语义感知的基线和基于CLIP的空间基线，涵盖新房间、视觉效果、同义词和类别。
与将语义和3D推理均委托给2D VLM的基线相比，增加语义抽象显著提升了泛化能力。
多尺度相关性提取器在检测小型或长尾对象方面带来显著提升，并在效率上优于天真实现。
该方法展示零-shot、sim2real传输，在对现实世界Matterport扫描进行完成和定位时取得成果，尽管是在合成数据上训练的。
在NYUv2 CAD上，SemAbs实现了零-shot的广义类别预测（多达894个类别）以及对长尾对象的稳健表现，凸显开放世界能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。