QUICK REVIEW

[論文レビュー] Inner Monologue: Embodied Reasoning through Planning with Language Models

Wenlong Huang, Fei Xia|arXiv (Cornell University)|Jul 12, 2022

Multimodal Machine Learning Applications被引用数 206

ひとこと要約

本論文は、現実世界の環境からのフィードバックを凍結済みの言語モデルに入力することで、内的モノローグの計画ループを可能にし、シミュレーションおよび実世界の長期的なロボットタスクの性能を追加訓練なしで改善できることを示す。

ABSTRACT

Recent works have shown how the reasoning capabilities of Large Language Models (LLMs) can be applied to domains beyond natural language processing, such as planning and interaction for robots. These embodied problems require an agent to understand many semantic aspects of the world: the repertoire of skills available, how these skills influence the world, and how changes to the world map back to the language. LLMs planning in embodied environments need to consider not just what skills to do, but also how and when to do them - answers that change over time in response to the agent's own choices. In this work, we investigate to what extent LLMs used in such embodied contexts can reason over sources of feedback provided through natural language, without any additional training. We propose that by leveraging environment feedback, LLMs are able to form an inner monologue that allows them to more richly process and plan in robotic control scenarios. We investigate a variety of sources of feedback, such as success detection, scene description, and human interaction. We find that closed-loop language feedback significantly improves high-level instruction completion on three domains, including simulated and real table top rearrangement tasks and long-horizon mobile manipulation tasks in a kitchen environment in the real world.

研究の動機と目的

身体化された環境からの自然言語フィードバックが、凍結済みのLLMプランナーによって活用され、ロボティクスにおける計画と実行を改善できるかを調査する。
LLM駆動の計画内で、知覚フィードバック、ロボットスキル、および人間のフィードバックを相互に織り交ぜる Inner Monologue フレームワークを開発・分析する。
評価のため、シミュレーテッドな卓上の再配置、実世界の卓上再配置、および実世界のキッチンにおけるモバイルマニピュレーションの3領域でアプローチを評価し、頑健性と一般化を検討する。
新しい指示への適応、自己提案目標、多言語対話、対話的な場面理解など、Inner Monologue アプローチの出現的な能力を探る。

提案手法

Inner Monologue を提案する：環境由来のテキストフィードバック（成功信号、シーン記述、および人間の入力）を、計画と実行の間に LLM プランナーに注入する。
プランナーが計画を組み立てるための行動ライブラリとして、事前訓練済みの言語条件付きロボットスキルを使用する。
フィードバックを知覚モジュール（物体認識、シーン記述、成功検出器）を通じて grounding し、いくつかの設定では実ロボット用のアフォーダンスベース grounding を用いる。
タスクデータで微調整せず、凍結された LLM で few-shot prompting を維持する。
環境からのフィードバックに応じて、LLM が再試行、再計画、または人間のフィードバックを要求できる閉ループ対話を示す。
3つの領域で評価する：シミュレーテッドな卓上再配置、実世界の卓上再配置、および実世界のキッチンモバイルマニピュレーション。

実験結果

リサーチクエスチョン

RQ1具象化されたタスクにおいて、LLMプランナーは環境テキストフィードバックを意味的に活用して、知覚と制御のループを閉じることができるか。
RQ2オープンループまたは非LLMのベースラインと比較して、inner-monologue 計画は長期的な操作タスクの成功を改善するか。
RQ3どの種類のフィードバック（成功信号、受動的なシーン記述、能動的なシーン記述、人間の入力）が、計画と実行を最も支援するか。
RQ4具象化されたフィードバックに基づく LLM 計画のグラウンディングから生じる出現的能力は何か（例：適応、多言語対話、対話的なシーン理解）。

主な発見

物体認識とシーンフィードバックを取り入れた Inner Monologue のバリアントは、シミュレーションと実世界のタスクの両方で、ベースラインより高い成功率を達成する。
連鎖的思考プロンプトを伴う Object + Scene フィードバックは、シミュレーションで未見のタスクへの強い一般化をもたらす。
実世界の卓上タスクでは、物体認識に加えて成功フィードバックを付与することで、頑健性と障害からの回復性が著しく向上する。
実世界のキッチン操作では、LLM によって得られるフィードバックにより、撹乱下での再試行と再計画が改善され、 challenging なシナリオで SayCan ベースラインを上回る。
出現的能力には、新しい指示への継続的な適応、実現不可能な場合の自己提案目標、多言語対話、対話的なシーン理解が含まれ、これらの行動を明示的に促すプロンプトがなくても現れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。