QUICK REVIEW

[論文レビュー] LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

Dhruv Shah, Błażej Osiński|arXiv (Cornell University)|Jul 10, 2022

Multimodal Machine Learning Applications被引用数 80

ひとこと要約

LM-Navは、事前学習済みの言語モデル、視覚言語モデル、視覚ナビゲーションモデルを組み合わせ、ロボット特有の微調整や注釈付きナビゲーションデータを一切用いずに、自由形式の自然言語ナビゲーション指示を実行します。

ABSTRACT

Goal-conditioned policies for robotic navigation can be trained on large, unannotated datasets, providing for good generalization to real-world settings. However, particularly in vision-based settings where specifying goals requires an image, this makes for an unnatural interface. Language provides a more convenient modality for communication with robots, but contemporary methods typically require expensive supervision, in the form of trajectories annotated with language descriptions. We present a system, LM-Nav, for robotic navigation that enjoys the benefits of training on unannotated large datasets of trajectories, while still providing a high-level interface to the user. Instead of utilizing a labeled instruction following dataset, we show that such a system can be constructed entirely out of pre-trained models for navigation (ViNG), image-language association (CLIP), and language modeling (GPT-3), without requiring any fine-tuning or language-annotated robot data. We instantiate LM-Nav on a real-world mobile robot and demonstrate long-horizon navigation through complex, outdoor environments from natural language instructions. For videos of our experiments, code release, and an interactive Colab notebook that runs in your browser, please check out our project page https://sites.google.com/view/lmnav

研究の動機と目的

大規模で未注釈の軌道データを活用して、目標条件付きのロボットナビゲーションを有効にする。
命令追従の自然言語インターフェースを、言語注釈付きのロボットデータなしで提供する。
事前学習済みモデルを組み合わせて、長期的なナビゲーションタスクを計画・実行できることを示す。
一般化性能と頑健性を評価するため、LM-Navを屋外の実世界環境で評価する。

提案手法

ViNGを視覚ナビゲーションモデルとして用い、ロボットの観測から環境のトポロジ的マップを構築する。
自由形式の自然言語指示を、テキストのランドマークの列に翻訳するためにGPT-3を用いる。
CLIPを用いてランドマークの記述をトポロジーマップのノードにグラウンディングし、P(v|l)を計算する。
グラフノード間のランドマーク適合性と通過可能性に関する確率的推論として計画を定式化し、動的計画法（グラフ探索）を用いて歩行を最適化する。
環境を移動するためにViNGの行動予測を用いて、得られた計画を実行する。

実験結果

リサーチクエスチョン

RQ1自由形式の自然言語指示を、ロボットのトポロジカルマップにグラウンドできるランドマークの列に解析できるか。
RQ2市販の、微調整を施していないLLMs、VLMs、VNMsを組み合わせて、自然言語から長期の屋外ナビゲーションを実現できるか？
RQ3現実の屋外ビジュアルでランドマークをグラウンディングする際の制約は何で、これが計画と実行にどのように影響するか？

主な発見

システム	環境	正味成功率	効率	介入回数	計画
GPS-Nav (No VNM)	EnvSmall-10	0.23	0.93	0.75	0.9
	EnvSmall-10	0.8	0.96	0.1	0.9
LM-Nav (Ours)	EnvLarge-10	0.8	0.89	0	0.8

LM-Navは、20件の屋外クエリを対象に、およそ85%の計画・実行成功を達成する。
システムは、ロボット特有データやファインチューニングなしで、複雑な郊外環境で数百メートルの移動を可能にする。
成功した実行では、LM-Navは高効率の移動を示し、介入を最小限に抑える（6.4 kmあたり平均1回の介入）。
構成要素をアブレーションすると、VNMが衝突回避と通過可能性の推論において極めて重要であることが示される。
CLIP-ViTを用いたランドマークのグラウンディングは、評価したVLMの中で最も信頼性の高い検出を提供し、GPT-3は指示をランドマークへ確実に解析する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。