[논문 리뷰] SafeGen-LLM: Enhancing Safety Generalization in Task Planning for Robotic Systems
SafeGen-LLM은 안전 제약 PDDL3 벤치마크에서 안전 정렬된 크로스 도메인 태스크 플래닝을 가능하게 하는 두 단계 사후 학습 프레임워크(SFT 및 GRPO)를 제안한다.
Safety-critical task planning in robotic systems remains challenging: classical planners suffer from poor scalability, Reinforcement Learning (RL)-based methods generalize poorly, and base Large Language Models (LLMs) cannot guarantee safety. To address this gap, we propose safety-generalizable large language models, named SafeGen-LLM. SafeGen-LLM can not only enhance the safety satisfaction of task plans but also generalize well to novel safety properties in various domains. We first construct a multi-domain Planning Domain Definition Language 3 (PDDL3) benchmark with explicit safety constraints. Then, we introduce a two-stage post-training framework: Supervised Fine-Tuning (SFT) on a constraint-compliant planning dataset to learn planning syntax and semantics, and Group Relative Policy Optimization (GRPO) guided by fine-grained reward machines derived from formal verification to enforce safety alignment and by curriculum learning to better handle complex tasks. Extensive experiments show that SafeGen-LLM achieves strong safety generalization and outperforms frontier proprietary baselines across multi-domain planning tasks and multiple input formats (e.g., PDDLs and natural language).
연구 동기 및 목표
- 로봇 공학에서 고전 플래너의 확장성 문제와 RL/LMM 접근의 비안전 계획 위험을 고려한 안전한 태스크 플래닝을 촉진한다.
- 계획 평가를 위한 명시적 안전 제약이 있는 안전 지향 다중 도메인 PDDL3 벤치마크를 개발한다.
- LLM을 형식적 안전 제약에 맞추기 위한 두 단계의 사후 학습 프레임워크(SFT 및 GRPO)를 제안한다.
- 여러 입력 형식에서 크로스 도메인 및 크로스 문제의 안전 일반화를 시연하고 프론티어 벤치마크와 비교한다.
제안 방법
- 명시적 안전 제약을 가진 블록월드, 페리, 그리퍼스, 스패너를 포함한 통합 안전 인식 PDDL3 플래닝 벤치마크를 구성한다.
- Stage I: 제약 준수 플래닝 데이터에 대한 감독 학습 미세조정(SFT)을 수행하여 플래닝 구문과 의미를 학습한다.
- Stage II: 형식적 검증에서 도출된 미세한 보상 기계로 유도된 GRPO를 통해 안전 정렬을 강화한다.
- 학습의 안정화 및 점증적으로 더 복잡한 작업을 다루기 위한 커리큘럼 학습.
- 보상 설계는 VAL 검증 가능한 결과로부터의 계층적, 진행 기반 신호를 사용한다(형식 오류에서 성공까지 다섯 가지 범주).
- 도메인 균형 배치 및 샘플 효율성과 안전 일반화를 향상시키기 위한 3단계 커리큘럼.
실험 결과
연구 질문
- RQ1SafeGen-LLM은 같은 도메인 내에서 보지 못한 문제들 간의 안전 제약 일반화가 가능한가?
- RQ2SafeGen-LLM은 다중 도메인 간 안전 제약 일반화가 가능한가?
- RQ3SFT와 GRPO가 함께 pretrained 및 SFT-만 baselines 대비 계획 성공률을 개선하고 안전 위반을 감소시키는가?
- RQ4SafeGen-LLM은 도메인 및 입력 형식 간 안전 인식 플래닝에서 대형 독점 모델과 비교해 어떤가?
- RQ5커리큘럼 학습 및 검증 가능한 보상의 훈련 안정성 및 안전 준수에 미치는 영향은?
주요 결과
- LLM 기반 플래너는 네 도메인에서 안전 제약 태스크에서 고전 플래너보다 성공률과 안전 준수를 더 달성한다.
- 크로스-프로블럼 결과는 Blocksworld에서 전제 조건 위반이 사전학습(Pretrained) 98%에서 SFT 20%, GRPO 8%로 감소하고, 성공률은 0%에서 SFT 66%, GRPO 82%로 상승함.
- 도메인 간 결과는 GRPO로 학습된 Qwen3-14B가 88–100%의 성공과 안전 위반의 거의 제거(0–2%)를 달성함을 보여준다; Llama-8B는 78–94%의 성공과 0–4%의 안전 위반을 달성.
- GPT-5 Nano와 비교하여 GRPO-학습된 Qwen3-14B는 4개 도메인에서 더 높은 성공(88–100%)을 달성하는 반면, 더 작은 모델도 경쟁력을 유지하며 규모-감독 일반화를 입증.
- 런타임 분석은 LLM 기반 플래닝이 스트레스 테스트에서 일부 고전 플래너보다 실행 가능성 및 속도 측면에서 우수할 수 있음을 보여주며(예: GPT-5.2는 Blocksworld/Grippers에서 평균 약 102초의 실행시간으로 100% 성공; OPTIC 및 Fast Downward는 난이도 증가에 따라 더 낮은 성공률을 보임).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.