[논문 리뷰] DUPLEX: Agentic Dual-System Planning via LLM-Driven Information Extraction
DUPLEX는 스키마에 guided된 정보 추출에 LLM을 한정하고, 플래너와 함께 결정론적 매핑을 PDDL로 수행하며, 실패를 수정하기 위한 느린 반성 시스템으로 장기간 계획의 높은 신뢰성을 달성한다.
While Large Language Models (LLMs) provide semantic flexibility for robotic task planning, their susceptibility to hallucination and logical inconsistency limits their reliability in long-horizon domains. To bridge the gap between unstructured environments and rigorous plan synthesis, we propose DUPLEX, an agentic dual-system neuro-symbolic architecture that strictly confines the LLM to schema-guided information extraction rather than end-to-end planning or code generation. In our framework, a feed-forward Fast System utilizes a lightweight LLM to extract entities, relations etc. from natural language, deterministically mapping them into a Planning Domain Definition Language (PDDL) problem file for a classical symbolic planner. To resolve complex or underspecified scenarios, a Slow System is activated exclusively upon planning failure, leveraging solver diagnostics to drive a high-capacity LLM in iterative reflection and repair. Extensive evaluations across 12 classical and household planning domains demonstrate that DUPLEX significantly outperforms existing end-to-end and hybrid LLM baselines in both success rate and reliability. These results confirm that The key is not to make the LLM plan better, but to restrict the LLM to the part it is good at - structured semantic grounding - and leave logical plan synthesis to a symbolic planner.
연구 동기 및 목표
- 엄격한 물리적 제약하에서 구체화된 에이전트를 위한 견고한 장기 계획의 동기를 부여한다.
- 스키마 주도 정보 추출을 통해 비구조화된 실제 관찰과 엄격한 기호적 계획을 연결한다.
- 빠른-느린 이중 시스템으로 정보 추출과 계획 합성을 분리하여 LLM의 부담을 줄인다.
- 전통적인 IPC 도메인과 구현된 가정용 작업에서 신뢰성과 효율성 향상을 입증한다.
제안 방법
- LLM은 PDDL에서 도출된 도메인 스키마에 의해 엄격히 정보 추출기로 작동한다.
- 결과 정보를 바탕으로 표준 PDDL 템플릿을 채워 Problem PDDL을 구성하는 결정론적 매퍼.
- 고전적 기호적 플래너(예: Fast Downward)가 도메인 및 문제 PDDL로부터 실행 가능한 계획을 계산한다.
- 계획이 실패하면, 높은 용량의 LLM을 사용하는 Slow System이 플래너 진단을 분석하고 성공할 때까지 PDDL을 반복적으로 수정한다.
- 3단계 검증: (1) Fast System의 규칙 기반 검사, (2) Slow System에 의한 의미적 검증/교정, (3) 암시적 상태 수정을 위한 계획자 진단 반영.
- 평가는 12개의 IPC/전통 및 구현 가정용 도메인에서 LLM-as-Planner 및 LLM+P와 비교한다.

실험 결과
연구 질문
- RQ1LLM 기반 정보 추출기와 기호적 플래너를 결합한 것이 엔드투엔드 LLM 플래너보다 장기 목표에서 더 높은 신뢰성을 달성할 수 있는가?
- RQ2플래너 진단이 포함된 실패 주도 Slow System이 PDDL 표현의 근거화 및 수리를 크게 개선하는가?
- RQ3제안된 이중 시스템 아키텍처가 전통적 IPC 도메인과 구현된 가정용 계획 작업에서 어떻게 성능을 보이는가?
- RQ4LLM의 역할을 정보 추출로 한정하는 것이 효율성과 견고성에 미치는 영향은 무엇인가?
주요 결과
| 도메인 | LLM-as-Planner | LLM+P | DUPLEX Fast System | DUPLEX Full System |
|---|---|---|---|---|
| Barman | 0.0 | 100.0 | 100.0 | 100.0 |
| Blocksworld | 30.0 | 90.0 | 100.0 | 100.0 |
| Floortile | 0.0 | 15.0 | 30.0 | 85.0 |
| Grippers | 50.0 | 100.0 | 100.0 | 100.0 |
| Storage | 0.0 | 85.0 | 100.0 | 100.0 |
| Termes | 0.0 | 90.0 | 100.0 | 100.0 |
| Tyreworld | 15.0 | 90.0 | 100.0 | 100.0 |
| Visitall | 0.0 | 5.0 | 40.0 | 95.0 |
| Average | 11.9 | 71.9 | 83.8 | 97.5 |
| PC Assembly | 70.0 | 76.0 | 76.7 | 96.7 |
| Dining Setup | 38.7 | 4.0 | 70.0 | 98.0 |
| Cleaning | 0.0 | 0.0 | 30.7 | 70.7 |
| Office | 0.0 | 0.0 | 26.0 | 68.7 |
| Average | 27.2 | 20.0 | 50.9 | 83.5 |
- DUPLEX는 IPC 도메인에서 평균 성공률 97.5%를 달성하여 LLM+P(71.9%) 및 LLM-as-Planner(11.9%)를 능가한다.
- IPC 도메인에서 Slow System이 작동할 때 Floortile과 Visitall의 이득이 상당하다(예: Floortile 30.0%에서 85.0%로; Visitall 40.0%에서 95.0%로).
- 구현된 가정용 작업에서 DUPLEX는 평균 성공률 83.5%에 도달하여 LLM-as-Planner(27.2%)와 LLM+P(20.0%)를 능가한다.
- 분해실험은 Fast System만으로 IPC 83.8% 및 가정용 성공 50.9%를 보이고; Slow System을 추가하면 IPC가 97.5% 가정용이 83.5%로 상승한다.
- Slow System은 플래너 진단을 활용한 대상화된 PDDL 수정으로 근거 오류, 누락 사실 및 암시적 상태 누락에서 강력한 회복을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.