[论文解读] Inner Monologue: Embodied Reasoning through Planning with Language Models
本论文显示,将具身环境反馈输入到冻结的语言模型中,可以实现一个内在独白的规划循环,从而在仿真和现实世界场景中改进长期目标的机器人任务,而无需额外训练。
Recent works have shown how the reasoning capabilities of Large Language Models (LLMs) can be applied to domains beyond natural language processing, such as planning and interaction for robots. These embodied problems require an agent to understand many semantic aspects of the world: the repertoire of skills available, how these skills influence the world, and how changes to the world map back to the language. LLMs planning in embodied environments need to consider not just what skills to do, but also how and when to do them - answers that change over time in response to the agent's own choices. In this work, we investigate to what extent LLMs used in such embodied contexts can reason over sources of feedback provided through natural language, without any additional training. We propose that by leveraging environment feedback, LLMs are able to form an inner monologue that allows them to more richly process and plan in robotic control scenarios. We investigate a variety of sources of feedback, such as success detection, scene description, and human interaction. We find that closed-loop language feedback significantly improves high-level instruction completion on three domains, including simulated and real table top rearrangement tasks and long-horizon mobile manipulation tasks in a kitchen environment in the real world.
研究动机与目标
- 探索是否可以利用具身环境中的自然语言反馈,由冻结的LLM规划器提升机器人任务的规划与执行。
- 开发并分析 Inner Monologue 框架,在基于LLM的规划中交错感知反馈、机器人技能与人类反馈。
- 在模拟桌面重新排列、现实世界桌面重新排列和现实世界厨房移动操控这三个场景中评估该方法,以评估鲁棒性和泛化能力。
- 探索 inner-monologue 方法的涌现能力,如对新指令的适应、自我提出目标、多语言交互以及交互式场景理解。
提出的方法
- 提出 Inner Monologue:在规划与执行期间,将来自环境的文本反馈(成功信号、场景描述和人类输入)注入到 LLM 规划器中。
- 使用预训练的语言条件化机器人技能作为规划器的动作库,以组装成计划。
- 通过感知模块(物体识别、场景描述、成功检测器)对反馈进行具身化落地,在某些设置中,还包括基于可供性的落地。
- 保持少量示例提示制度,使用冻结的LLM,而非在任务数据上进行微调。
- 展示闭环交互:LLM在收到环境反馈后,可以重试、重新规划或请求人类反馈。
- 在三个领域进行评估:模拟桌面重新排列、现实世界桌面重新排列,以及现实世界厨房移动操作。
实验结果
研究问题
- RQ1LLM规划器能否有意义地利用文本形式的环境反馈,与感知和控制在具身任务中闭环?
- RQ2与开环或非LLM基线相比,内在独白规划是否提升长时程操作任务的成功率?
- RQ3哪种类型的反馈(成功信号、被动场景描述、主动场景描述、人类输入)最有利于规划与执行?
- RQ4将LLM规划与具身反馈结合会产生哪些涌现能力(如适应、多语言交互、交互式场景理解)?
主要发现
- 将对象识别和场景反馈纳入的 Inner Monologue 变体,在模拟与真实任务中达到比基线更高的任务成功率。
- 对象+场景反馈在仿真中对未见任务表现出较强的泛化能力。
- 在现实世界桌面任务中,结合对象识别的成功反馈显著提高鲁棒性和从失败中的恢复能力。
- 在现实世界厨房操作中,以LLM为基础的反馈使得重试与重新规划在干扰下表现更好,在挑战场景中优于SayCan基线。
- 涌现能力包括对新指令的持续适应、在不可行时自行提出目标、多语言交互和交互式场景理解,即使没有对这些行为的显式提示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。