QUICK REVIEW

[论文解读] LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

Dhruv Shah, Błażej Osiński|arXiv (Cornell University)|Jul 10, 2022

Multimodal Machine Learning Applications被引用 80

一句话总结

LM-Nav 将一个预训练语言模型、一个视觉-语言模型和一个视觉导航模型结合起来，在不进行任何与机器人相关的微调或带注释的导航数据的情况下，执行自由形式的自然语言导航指令。

ABSTRACT

Goal-conditioned policies for robotic navigation can be trained on large, unannotated datasets, providing for good generalization to real-world settings. However, particularly in vision-based settings where specifying goals requires an image, this makes for an unnatural interface. Language provides a more convenient modality for communication with robots, but contemporary methods typically require expensive supervision, in the form of trajectories annotated with language descriptions. We present a system, LM-Nav, for robotic navigation that enjoys the benefits of training on unannotated large datasets of trajectories, while still providing a high-level interface to the user. Instead of utilizing a labeled instruction following dataset, we show that such a system can be constructed entirely out of pre-trained models for navigation (ViNG), image-language association (CLIP), and language modeling (GPT-3), without requiring any fine-tuning or language-annotated robot data. We instantiate LM-Nav on a real-world mobile robot and demonstrate long-horizon navigation through complex, outdoor environments from natural language instructions. For videos of our experiments, code release, and an interactive Colab notebook that runs in your browser, please check out our project page https://sites.google.com/view/lmnav

研究动机与目标

通过利用大型、未标注的轨迹数据来实现目标条件的机器人导航。
提供一个自然语言界面，用于遵循指令，无需带语言注释的机器人数据。
展示如何将预训练模型组合起来，以规划和执行长期导航任务。
在室外真实世界环境中评估 LM-Nav，以评估其泛化能力和鲁棒性。

提出的方法

使用 ViNG 作为视觉导航模型，从机器人观测中构建环境的拓扑地图。
使用 GPT-3 将自由形式的自然语言指令转换为一系列文本化地标。
使用 CLIP 将地标描述与拓扑地图中的节点对齐，方法是计算 P(v|l)。
将规划表述为对地标拟合度和图节点之间可通行性的概率推断，通过动态规划（图搜索）来优化行走路径。
使用 ViNG 的动作预测来执行得到的计划，在环境中移动。

实验结果

研究问题

RQ1自由形式的自然语言指令是否可以被解析为一系列适合在机器人的拓扑地图中进行定位的地标？
RQ2是否可以将现成的、未经过微调的语言模型、视觉-语言模型和视觉导航模型组合起来，以实现基于自然语言的长时程室外导航？
RQ3在真实世界室外视觉场景中对地标进行对位的局限性有哪些，它们如何影响规划与执行？

主要发现

LM-Nav 在 20 个室外查询中的规划与执行成功率约为 85%。
该系统能够在复杂的郊区环境中导航数百米，无需机器人特定数据或微调。
在成功运行中，LM-Nav 展示出高效的行进，最小的中断（平均每 6.4 公里 1 次干预）。
消融实验表明，VNM 对避免碰撞和推理遍历性至关重要。
使用 CLIP-ViT 对地标进行对位提供了在评估的视觉语言模型中最可靠的检测，而 GPT-3 在将指令可靠解析为地标方面表现稳定。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。