[论文解读] BTGenBot-2: Efficient Behavior Tree Generation with Small Language Models
BTGenBot-2 是一个1B参数的开源LLM,经过微调可将自然语言任务描述和机器人动作原语转换为可在ROS2上执行的行为树,具备设备端部署、零-shot生成、运行时错误恢复,以及一个标准化BT基准,性能优于更大模型。
Recent advances in robot learning increasingly rely on LLM-based task planning, leveraging their ability to bridge natural language with executable actions. While prior works showcased great performances, the widespread adoption of these models in robotics has been challenging as 1) existing methods are often closed-source or computationally intensive, neglecting the actual deployment on real-world physical systems, and 2) there is no universally accepted, plug-and-play representation for robotic task generation. Addressing these challenges, we propose BTGenBot-2, a 1B-parameter open-source small language model that directly converts natural language task descriptions and a list of robot action primitives into executable behavior trees in XML. Unlike prior approaches, BTGenBot-2 enables zero-shot BT generation, error recovery at inference and runtime, while remaining lightweight enough for resource-constrained robots. We further introduce the first standardized benchmark for LLM-based BT generation, covering 52 navigation and manipulation tasks in NVIDIA Isaac Sim. Extensive evaluations demonstrate that BTGenBot-2 consistently outperforms GPT-5, Claude Opus 4.1, and larger open-source models across both functional and non-functional metrics, achieving average success rates of 90.38% in zero-shot and 98.07% in one-shot, while delivering up to 16x faster inference compared to the previous BTGenBot.
研究动机与目标
- 满足对开源、高效且可部署的基于LLM的机器人任务规划需求,超越封闭API和大型模型的局限。
- 开发一个轻量级的SLM,直接从自然语言和动作原语输出与 ROS2 兼容的 XML 行为树。
- 在推理阶段和运行时提供鲁棒的错误处理,以提升在真实机器人上的可靠性。
- 引入一个标准化的LLM生成BT的基准,覆盖仿真与真实硬件中的导航与操作任务。
提出的方法
- 使用 QLoRA(PEFT)在一个合成指令跟随数据集上微调一个1B参数的 Llama-3.2-1B-Instruct 模型,该数据集包含5,204个BT及其自然语言描述和动作原语的配对。
- 从 TSE BT 收藏集中整理数据集,利用GPT类工具生成合成变体,并生成训练目标,使BT保持XML兼容且仅使用允许的动作。
- 在推理阶段强制进行严格的XML和动作原语校验,避免输出格式错误。
- 通过一个轻量级的进程内日志记录器实现运行时错误恢复,当故障传播时可触发子树再生成。
- 部署一个与ROS2兼容的BT生成工作流,进行BehaviorTree.CPP验证并内联日志记录器以记录堆栈跟踪和黑板状态。
实验结果
研究问题
- RQ1一个1B参数的开源LLM 是否可以经过微调,可靠地从自然语言和给定的动作原语集合生成可执行的ROS2兼容行为树?
- RQ2一个轻量级、设备端的BT生成器,具备显式的推理时和运行时校验,是否在BT质量和执行可靠性方面优于更大规模的闭源模型?
- RQ3提出的ER(错误恢复)机制在标准化BT基准的简单、中等、困难任务上对零-shot和一-shot性能有何影响?
- RQ4数据集规模和整理策略对机器人指令跟随代理的BT生成质量有何影响?
主要发现
- BTGenBot-2 在零-shot和一-shot 设置中,平均功能性/非功能性分数高于GPT-5变体、Claude Opus 4.1与原始BTGenBot。
- 零-shot 平均成功率(SR)为84.61%,BTGenBot-2 超越强基线;一-shot SR 提升至92.38%。
- BTGenBot-2–ER(带错误恢复)在零-shot达到90.38%和在一-shot达到98.07% SR,且在多数情况下XML语法正确、动作一致性完美。
- BTGenBot-2 的推理时间在零-shot约11秒,在一-shot设置中仍具竞争力,ER带来极小开销。
- 作者发布了首个标准化BT基准(52个任务在NVIDIA Isaac Sim),并在实际机器人验证中实现导航任务17/18的成功,带ER时为18/18。
- 在 curated 的5,204样本BT数据集上进行的Q LoRA微调,相比预训练基线和先前的BT生成器,显著提升了性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。