QUICK REVIEW

[论文解读] Visual Semantic Navigation using Scene Priors

Wei Yang, Xiaolong Wang|arXiv (Cornell University)|Oct 15, 2018

Multimodal Machine Learning Applications参考文献 33被引用 37

一句话总结

本文提出了一种图卷积网络（GCN）增强的深度强化学习框架，通过整合语义和功能场景先验知识，提升视觉语义导航性能。通过将关于物体布局的先验知识（例如，马克杯靠近咖啡机）编码为知识图谱，该智能体在未见过的环境和新物体上泛化能力更强，在成功率和SPL指标上取得显著提升——尤其在未见过场景和物体的零样本设置下表现突出。

ABSTRACT

How do humans navigate to target objects in novel scenes? Do we use the semantic/functional priors we have built over years to efficiently search and navigate? For example, to search for mugs, we search cabinets near the coffee machine and for fruits we try the fridge. In this work, we focus on incorporating semantic priors in the task of semantic navigation. We propose to use Graph Convolutional Networks for incorporating the prior knowledge into a deep reinforcement learning framework. The agent uses the features from the knowledge graph to predict the actions. For evaluation, we use the AI2-THOR framework. Our experiments show how semantic knowledge improves performance significantly. More importantly, we show improvement in generalization to unseen scenes and/or objects. The supplementary video can be accessed at the following link: https://youtu.be/otKjuO805dE .

研究动机与目标

通过利用关于物体布局的语义和功能先验知识，提升在未知环境中的视觉语义导航性能。
通过使用语义关系（例如，'芒果是一种水果，因此应查看冰箱'）使智能体能够泛化到训练期间未见过的新物体类别。
通过利用典型物体-场景配置的先验知识，减少探索时间，提升导航效率。
在零样本设置下（未见过的场景和/或新目标物体）评估模型的鲁棒性。
证明结构化知识图谱在复杂、真实环境中的泛化能力优于标准强化学习基线模型。

提出的方法

使用知识图谱编码来自大规模场景理解数据集的语义和功能先验知识（例如，'马克杯与咖啡机一起使用'，'水果储存在冰箱中'）。
采用图卷积网络（GCNs）基于当前视觉观测和先验状态，更新并传播先验知识。
在演员-评论家强化学习框架中引入知识图谱特征和物体可见性信号。
在推理过程中通过融合实时观测与先验知识，动态更新知识图谱，实现上下文感知推理。
在AI2-THOR环境中端到端训练模型，该环境提供逼真的、可自定义的室内场景及多样的物体布局。
引入'停止'动作以模拟真实导航场景，即智能体必须检测是否已到达目标，从而增加任务难度。

实验结果

研究问题

RQ1语义先验知识（如功能关系，例如马克杯靠近咖啡机）是否能提升在未见环境中的导航性能？
RQ2智能体在仅依赖语义关系的情况下，能多大程度上泛化到从未见过的新物体类别（例如芒果）？
RQ3在零样本设置下（未见过的场景和新物体），整合结构化知识图谱对泛化能力有何影响？
RQ4使用GCN实时更新知识是否能带来比标准强化学习智能体更优的探索与规划性能？
RQ5性能对知识图谱的质量和结构有多敏感？（例如，移除节点/关系）

主要发现

所提方法在未见场景与新物体上的成功率达38.5%，SPL达62.5%，显著优于A3C基线（成功率24.4%，SPL 56.5%）和随机基线。
在具有挑战性的零样本设置（未见场景与新物体）下，模型取得30.4%的成功率和64.9%的SPL，表明其泛化能力远超训练数据分布。
当移除知识图谱组件时，性能下降：移除80%的物体节点会使SPL从38.5降至31.1，移除80%的关系会使SPL降至31.5。
全连接图或随机图的性能更差（SPL分别为32.5和30.1），证实有意义的先验结构对性能至关重要。
GCN模块仅为基线A3C模型（约4 GFLOPs）增加0.12 GFLOPs，表明计算开销极低。
在所有设置中，该模型均优于基线模型，尤其在零样本场景下表现更优，表明语义先验可实现有效推理，即使未接触过特定场景或物体。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。