QUICK REVIEW

[论文解读] Learning hierarchical relationships for object-goal navigation

Yiding Qiu, Anwesan Pal|arXiv (Cornell University)|Mar 15, 2020

Multimodal Machine Learning Applications参考文献 51被引用 31

一句话总结

MJOLNIR 引入基于记忆的分层对象关系模型用于对象目标导航，利用上下文向量和知识图谱引导的图卷积，在未见环境中改进目标定位。

ABSTRACT

Direct search for objects as part of navigation poses a challenge for small items. Utilizing context in the form of object-object relationships enable hierarchical search for targets efficiently. Most of the current approaches tend to directly incorporate sensory input into a reward-based learning approach, without learning about object relationships in the natural environment, and thus generalize poorly across domains. We present Memory-utilized Joint hierarchical Object Learning for Navigation in Indoor Rooms (MJOLNIR), a target-driven navigation algorithm, which considers the inherent relationship between target objects, and the more salient contextual objects occurring in its surrounding. Extensive experiments conducted across multiple environment settings show an $82.9\%$ and $93.5\%$ gain over existing state-of-the-art navigation methods in terms of the success rate (SR), and success weighted by path length (SPL), respectively. We also show that our model learns to converge much faster than other algorithms, without suffering from the well-known overfitting problem. Additional details regarding the supplementary material and code are available at https://sites.google.com/eng.ucsd.edu/mjolnir.

研究动机与目标

通过利用语义上下文和对象关系来推动鲁棒的对象目标导航。
引入一个记忆增强的分层框架，以父对象-目标关系来引导搜索。
结合上下文向量和基于知识图谱的 CGN，以提升对未见环境的泛化。

提出的方法

定义目标对象集和父对象集；从 Visual Genome 构建带裁剪关系的知识图谱。
为每个对象引入一个上下文向量，捕捉检测、位置、大小以及与目标的语义相似性。
提出一个双流网络：观测流（ResNet 特征或 5-D 上下文向量）和带有 GCN 层的 Contextualized Graph Network (CGN) 流。
将图嵌入和观测特征拼接，形成供 A3C 策略使用的联合嵌入。实施奖励塑形，在目标可见时对父对象给予部分奖励，在终止时对目标可见时给予组合奖励。

实验结果

研究问题

RQ1 hierarchical parent-target object relationships 提升未见环境下的导航效率和成功率吗？
RQ2将上下文向量和更新的 CGN 融入是否能比先前的场景先验方法提高学习速度和泛化能力？
RQ3奖励塑形对学习鲁棒性和收敛性的影响如何？
RQ4两种 MJOLNIR 变体（MJOLNIR-r 与 MJOLNIR-o）在性能和收敛性上有何差异？

主要发现

MJOLNIR-o 在未见测试环境上实现最高的 SR 和 SPL（SR 65.3% 与 SPL 21.1% 对于 L>=1；SR 50.0% 与 SPL 20.9% 对于 L>=5）。
MJOLNIR 模型显著优于基线和先前方法（例如，在所报道的设置中 MJOLNIR-o 相对于现有方法在 SR 上提升 82.9%、在 SPL 上提升 93.5%）。
上下文向量增强了对象中心的语义信息，提升了用 ResNet+GloVe 的导航效果。
奖励塑形利用父对象-目标关系加速收敛并减少对场景先验方法的过拟合。
MJOLNIR-r 即使没有上下文向量，也对基线有显著提升，凸显了 CGN 流的贡献。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。