[论文解读] SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems
SafeGen-LLM 提出两阶段后训练框架(SFT 与 GRPO),在安全受限的 PDDL3 基准上实现对LLMs的安全对齐和跨域任务规划。
Safety-critical task planning in robotic systems remains challenging: classical planners suffer from poor scalability, Reinforcement Learning (RL)-based methods generalize poorly, and base Large Language Models (LLMs) cannot guarantee safety. To address this gap, we propose safety-generalizable large language models, named SafeGen-LLM. SafeGen-LLM can not only enhance the safety satisfaction of task plans but also generalize well to novel safety properties in various domains. We first construct a multi-domain Planning Domain Definition Language 3 (PDDL3) benchmark with explicit safety constraints. Then, we introduce a two-stage post-training framework: Supervised Fine-Tuning (SFT) on a constraint-compliant planning dataset to learn planning syntax and semantics, and Group Relative Policy Optimization (GRPO) guided by fine-grained reward machines derived from formal verification to enforce safety alignment and by curriculum learning to better handle complex tasks. Extensive experiments show that SafeGen-LLM achieves strong safety generalization and outperforms frontier proprietary baselines across multi-domain planning tasks and multiple input formats (e.g., PDDLs and natural language).
研究动机与目标
- 在经典规划器在可扩展性方面存在挑战、强化学习/基于语言模型的方法可能产生不安全规划的情形下,推动机器人安全任务规划。
- 开发具明确安全约束的多域 PDDL3 基准,用于评估规划的安全性。
- 提出两阶段后训练框架(SFT 与 GRPO),使 LLMs 与形式化安全约束对齐。
- 展示跨域与跨问题的安全泛化,并在多种输入格式下与前沿基线进行比较。
提出的方法
- 构建跨 Blocksworld、Ferry、Grippers、Spanner 的统一安全感知 PDDL3 规划基准,含明确的安全约束。
- 阶段 I:在符合约束的规划数据上进行有监督微调(SFT),学习规划的语法与语义。
- 阶段 II:在由形式化验证衍生的细粒度奖励机引导下进行分组相对策略优化(GRPO),以实现安全对齐。
- 采用课程学习以稳定训练并处理日益复杂的任务。
- 奖励设计使用来自 VAL 可验证结果的分层、基于进展的信号(从格式错误到成功共五类)。
- 域内平衡的批处理和三阶段课程设计以提升样本效率与安全泛化。
实验结果
研究问题
- RQ1SafeGen-LLM 是否能在同一域内对未见问题实现安全约束的跨问题泛化?
- RQ2SafeGen-LLM 是否能在多域之间实现安全约束的跨域泛化?
- RQ3与预训练和仅SFT基线相比,SFT 与 GRPO 共同是否提升规划成功率并降低安全违规?
- RQ4与大规模专有模型在跨域和不同输入格式的安全感知规划中相比,SafeGen-LLM 的表现如何?
- RQ5课程学习与可验证奖励对训练稳定性与安全遵从性的影响?
主要发现
- 基于LLM的规划在四个域的安全受限任务中表现出比经典规划器更高的成功率和安全遵从性。
- 跨问题的结果显示 Blocksworld 的前提条件违规率从 98%(预训练)降至 20%(SFT)再降至 8%(GRPO),成功率从 0%(预训练)提升至 66%(SFT)再至 82%(GRPO)。
- 跨域结果显示 GRPO 训练的 Qwen3-14B 在成功率达到 88–100%,安全违规几乎消除(0–2%);Llama-8B 在 78–94% 的成功率与 0–4% 的安全违规率之间。
- 与 GPT-5 Nano 相比,GRPO 训练的 Qwen3-14B 在四个域上获得更高的成功率(88–100%),而较小的模型仍具竞争力,证明了尺度监督对泛化的影响。
- 运行时分析表明,在压力测试下,基于LLM 的规划在可行性与速度方面可超越某些经典规划器(如 GPT-5.2 在 Blocksworld/Grippers 的成功率为 100%,平均运行时间约 102s;OPTIC 与 Fast Downward 在复杂度增加时的成功率较低)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。