[논문 리뷰] Errors are Useful Prompts: Instruction Guided Task Programming with Verifier-Assisted Iterative Prompting
CLAIRify는 검증기-지원 반복 프롬프팅을 사용하여 자연어로부터 구문적으로 유효한 도메인 특화 작업 계획을 생성하고, 베이스라인을 능가하며 실제 로봇 실행을 가능하게 한다.
Generating low-level robot task plans from high-level natural language instructions remains a challenging problem. Although large language models have shown promising results in generating plans, the accuracy of the output remains unverified. Furthermore, the lack of domain-specific language data poses a limitation on the applicability of these models. In this paper, we propose CLAIRIFY, a novel approach that combines automatic iterative prompting with program verification to ensure programs written in data-scarce domain-specific language are syntactically valid and incorporate environment constraints. Our approach provides effective guidance to the language model on generating structured-like task plans by incorporating any errors as feedback, while the verifier ensures the syntactic accuracy of the generated plans. We demonstrate the effectiveness of CLAIRIFY in planning chemistry experiments by achieving state-of-the-art results. We also show that the generated plans can be executed on a real robot by integrating them with a task and motion planner.
연구 동기 및 목표
- 도메인 특화 언어(DSL)에서 LLM이 생성한 계획에 대한 작업 계획 검증 부족 문제를 해결한다.
- 대상 DSL의 언어 설명을 활용한 맥락 학습을 통해 DSL의 데이터 부족 문제를 완화한다.
- 생성된 계획의 구문 유효성과 환경 제약 준수를 보장한다.
- 작업 및 모션 플래너(TAMP)와의 통합을 통해 생성된 계획의 실행을 입증한다.
- 화학 데이터 세트에서 이전 XDL 생성 방법보다 우수한 성능을 입증한다.
제안 방법
- 제로샷 프롬프트에서 LLM에 대상 DSL의 설명을 제공한다.
- 구조화된 언어 유사 출력을 반복적으로 생성하고 규칙 기반 검증기로 검증한다.
- 구문/제약 오류를 LLM에 피드백하여 이후 반복에서 to修orrect.
- 프롬프트와 검증기에 환경 제약을 반영하여 실행 불가능한 계획을 제거한다.
- 검증된 DSL 계획을 로봇 실행용 TAMP 프레임워크를 사용하여 저수준 동작으로 변환한다.
- 화학 설명 언어(XDL)와 실제 로봇 실험에서 결과를 시연한다.

실험 결과
연구 질문
- RQ1자동화된 반복 프롬프팅이 DSL 작업 계획의 제로샷 생성을 향상시킬 수 있는가?
- RQ2검증기 가이드 반복이 베이스라인보다 구문적으로 올바르고 실행 가능한 DSL 프로그램을 더 효과적으로 산출하는가?
- RQ3생성된 DSL 계획이 TAMP 프레임워크와의 통합 시 실제 로봇에 의해 실행될 수 있는가?
- RQ4환경 제약 반영이 계획의 유효성과 실행 가능성에 어떤 영향을 미치는가?
주요 결과
| 데이터셋 | 방법 | 생성된 수 ↑ | 전문가 선호도 ↑ |
|---|---|---|---|
| Chem-RnD | SynthReader [16] | 92/108 | 13/108 |
| Chem-RnD | CLAIRify [ours] | 105/108 | 75/108 |
| Chem-EDU | SynthReader [16] | 0/40 | - |
| Chem-EDU | CLAIRify [ours] | 40/40 | - |
- CLAIRify는 Chem-RnD에서 105/108의 성공적인 XDL 계획 생성을 달성했고 SynthReader의 92/108과 비교된다.
- Chem-EDU에서 40/40의 성공적인 XDL 계획 생성을 달성했고 SynthReader의 0/40과 비교된다.
- 전문가들은 Chem-RnD에서 SynthReader보다 CLAIRify 계획을 75/108회 더 선호했다( SynthReader의 13/108과 대조).
- 실험당 검증기 상호작용은 Chem-RnD에서 평균 2.58, Chem-EDU에서 1.15로 나타나 효과적인 피드백 루프를 시사한다.
- 실제 실험에서(색상 변화 및 레모네이드 작업) TAMP 프레임워크와 통합될 때 로봇이 CLAIRify 계획을 실행할 수 있었다.
- 오류 분석은 CLAIRify가 베이스라인에 비해 누락된 작업을 감소시키지만 다른 작동 및 매개 변수 오류를 도입하며, 이는 더 풍부한 도메인 지식으로 완화될 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.