QUICK REVIEW

[论文解读] Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2 into a Robot Language Model for Grounded Task Planning

Georgia Chalvatzaki, Ali Younes|arXiv (Cornell University)|Jan 1, 2023

Topic Modeling被引用 1

一句话总结

本文提出微调 GPT-2 作为基于场景图的机器人任务规划基础语言模型（RobLM），以实现长时程机器人任务规划。通过将环境表示为场景图并将其线性化为自然语言提示，该方法使模型能够从自然语言指令生成可执行的顺序计划，在 ALFRED 基准测试中表现优异，尤其在提供初始动作的上下文丰富描述时表现更佳。

ABSTRACT

Long-horizon task planning is essential for the development of intelligent assistive and service robots. In this work, we investigate the applicability of a smaller class of large language models (LLMs), specifically GPT-2, in robotic task planning by learning to decompose tasks into subgoal specifications for a planner to execute sequentially. Our method grounds the input of the LLM on the domain that is represented as a scene graph, enabling it to translate human requests into executable robot plans, thereby learning to reason over long-horizon tasks, as encountered in the ALFRED benchmark. We compare our approach with classical planning and baseline methods to examine the applicability and generalizability of LLM-based planners. Our findings suggest that the knowledge stored in an LLM can be effectively grounded to perform long-horizon task planning, demonstrating the promising potential for the future application of neuro-symbolic planning methods in robotics.

研究动机与目标

探究使用较小的 LLM（特别是 GPT-2）在机器人领域实现基于场景图的长时程任务规划的可行性。
开发一种方法，利用结构化的场景图表示将自然语言任务请求转换为可执行的机器人计划。
在计算资源受限条件下，评估基于 LLM 的规划器与经典规划方法在泛化能力与性能上的差异。
探索上下文接地如何提升基于 LLM 的规划器在计划生成中的准确率与适应性。

提出的方法

领域以编码物体、其属性以及空间-语义关系的场景图表示。
将场景图线性化为自然语言描述，作为微调 GPT-2 的输入。
微调后的 GPT-2 模型（命名为 RobLM）从自然语言指令生成顺序动作计划。
在 ALFRED 基准上使用任务目标与初始动作的上下文丰富描述组合进行训练。
采用提示工程策略，包含完整上下文（最多 1024 个 token），以提升计划准确率。
引入一种新组件 Graph2NL，用于将结构化的场景图转换为模型输入的自然语言。

实验结果

研究问题

RQ1当基于场景图表示进行接地时，微调后的 GPT-2 模型能否生成准确且可执行的机器人计划？
RQ2上下文信息（例如首次动作的描述）如何影响基于 LLM 的规划器的性能？
RQ3在成功率与泛化能力方面，基于接地的 LLM 规划器与经典规划方法相比表现如何？
RQ4LLM 在多大程度上能够利用其权重中存储的常识知识，对长时程任务进行推理？
RQ5在实时机器人规划中使用 LLM 存在哪些计算权衡？

主要发现

当提供首次指令的自然语言描述时，RobLM 在‘完整计划’动作和参数上表现出高准确率。
在提供上下文的情况下，RobLM 的性能接近经典规划基线，展现出对上下文线索的强大适应能力。
由于 GPT-2 的完整词表与内部生成机制，模型的推理速度显著慢于经典规划器，全上下文下仅 0.2 次/秒。
该方法表明，通过结构化场景图对 LLM 进行接地，即使使用较小的模型（如 GPT-2），也能实现对长时程任务的有效推理。
结果表明，LLM 能够存储并检索对规划有用的常识知识，尤其在部分可观测环境中表现突出。
尽管在速度与一致性方面存在局限，该方法在机器人领域神经符号规划方面展现出令人期待的潜力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。