[论文解读] Robot Behavior-Tree-Based Task Generation with Large Language Models
论文提出一个阶段-步 prompting 设计,以从大型语言模型生成模块化、跨领域的机器人行为树,能够在没有预定义原始任务的情况下从抽象任务描述自动构建完整行为树,并且包含从知识库自动选择源任务来提示LLM。
Nowadays, the behavior tree is gaining popularity as a representation for robot tasks due to its modularity and reusability. Designing behavior-tree tasks manually is time-consuming for robot end-users, thus there is a need for investigating automatic behavior-tree-based task generation. Prior behavior-tree-based task generation approaches focus on fixed primitive tasks and lack generalizability to new task domains. To cope with this issue, we propose a novel behavior-tree-based task generation approach that utilizes state-of-the-art large language models. We propose a Phase-Step prompt design that enables a hierarchical-structured robot task generation and further integrate it with behavior-tree-embedding-based search to set up the appropriate prompt. In this way, we enable an automatic and cross-domain behavior-tree task generation. Our behavior-tree-based task generation approach does not require a set of pre-defined primitive tasks. End-users only need to describe an abstract desired task and our proposed approach can swiftly generate the corresponding behavior tree. A full-process case study is provided to demonstrate our proposed approach. An ablation study is conducted to evaluate the effectiveness of our Phase-Step prompts. Assessment on Phase-Step prompts and the limitation of large language models are presented and discussed.
研究动机与目标
- 通过在新领域实现自动生成,激励降低最终用户在设计机器人行为树方面的工作量。
- 将基于LLM的任务生成从顺序任务扩展到分层的行为树表示。
- 通过将抽象任务描述落地为可执行的行为树,而不依赖固定的原始任务库,来实现跨领域的任务生成。
- 利用行为树知识库自动选择用于提示LLM的源任务。
- 通过一个完整流程的案例研究和对提示设计的消融研究来演示可行性。
提出的方法
- 引入一个 Phase-Step 提示,生成一个三层行为树片段(Phase 1、Phase 2、Phase 3),由 Sequence 和 Action 节点组成。
- 开发一个行为树构建过程,使用机器人能力动词列表进行动词对齐(verb-grounding),将非原始子任务扩展为原始动作,并可选地通过提示扩展。
- 结合基于相似性的流程,使用行为树嵌入和目标任务嵌入从知识库中选择合适的源任务,以引导 Phase-Step 提示的生成。
- 提供通过子任务扩展处理非原始子任务的机制,并用 Fallback 和 Condition 节点来管理额外的规范。
- 通过调整提示并执行对原始动作约束(通过动词列表和相似性阈值)来进行树的扩展和剪枝。
- 使用两个 LLM(GPT-3 text-davinci-003 和 ChatGPT)以及统一的句子嵌入(Universal Sentence Encoder)来对动词对齐和任务相似性进行着地评估。
实验结果
研究问题
- RQ1在没有预定义的原始任务库的情况下,大型语言模型是否能生成适用于机器人任务执行的模块化、分层的行为树?
- RQ2Phase-Step 提示是否能够稳定生成保留跨领域树结构的三层行为树片段?
- RQ3从知识库自动选择源任务是否能提高跨领域行为树生成的质量?
- RQ4提示变体和提示设计如何影响生成子任务的原始性和质量?
- RQ5在罕见或特定领域任务的机器人任务生成中,LLMs 的实际局限性有哪些?
主要发现
- Phase-Step 提示显著增加树结构输出,相较于非 Phase-Step 提示达到更高的结构比率和多步树。
- 从知识库自动选择源任务可以产生跨域任务生成,使得可以从 automotive wheel-assembly 源任务在桌面进行组装。
- GPT-3 倾向于在允许的动词集合内生成更符合机器人需求、简洁且可解释的任务步骤,而 ChatGPT 有时会生成需要进一步扩展的非原始动词。
- 使用动词对齐的方法进行子任务扩展,可以在相似性阈值检查(0.5)下把非原始子任务转换为原始动作。
- Phase-Step 提示能够生成可以扩展为适合机器人执行的完整树的 3 层行为树片段,而非 Phase-Step 提示往往产生序列式输出。
- 消融研究表明 Phase-Step 提示将结构比率 R 从接近零(非 Phase-Step)提高到约 0.6–0.93,具体取决于提示变体,表明可模块性提高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。