[논문 리뷰] Can Large Language Models Really Improve by Self-critiquing Their Own Plans?
tldr: 본 논문은 생성기 LLM이 계획을 만들고 검증기 LLM이 이를 비판하는 LLM+LLM 계획 시스템을 평가합니다; 자기 비판은 외부에 타당한 검증기를 사용할 때보다 계획 생성 성능을 저하시킨다고 하며, 그 이유는 검증기의 많은 false positives 때문입니다. 피드백의 세분화 수준은 큰 영향을 미치지 않습니다.
There have been widespread claims about Large Language Models (LLMs) being able to successfully verify or self-critique their candidate solutions in reasoning problems in an iterative mode. Intrigued by those claims, in this paper we set out to investigate the verification/self-critiquing abilities of large language models in the context of planning. We evaluate a planning system that employs LLMs for both plan generation and verification. We assess the verifier LLM's performance against ground-truth verification, the impact of self-critiquing on plan generation, and the influence of varying feedback levels on system performance. Using GPT-4, a state-of-the-art LLM, for both generation and verification, our findings reveal that self-critiquing appears to diminish plan generation performance, especially when compared to systems with external, sound verifiers and the LLM verifiers in that system produce a notable number of false positives, compromising the system's reliability. Additionally, the nature of feedback, whether binary or detailed, showed minimal impact on plan generation. Collectively, our results cast doubt on the effectiveness of LLMs in a self-critiquing, iterative framework for planning tasks.
연구 동기 및 목표
- LLM 기반 계획 시스템에서 자기 비판이 계획 생성 성능을 향상시키는지 평가합니다.
- LLM 기반 검증기의 성능을 계획 작업에서의 ground-truth verification (VAL)과 비교합니다.
- 피드백의 세분화가 계획 생성 성능에 미치는 영향을 분석합니다.
제안 방법
- 생성기 LLM과 검증기 LLM(둘 다 GPT-4)을 반복적 backprompting 설정에서 사용합니다(15회 반복 캡).
- 계획 문제를 PDDL로 표현하고 Blocksworld 도메인에서 평가합니다.
- 최종 계획의 ground-truth 검증을 VAL(외부 신뢰할 수 있는 검증자)로 수행합니다.
- LLM+LLM과 LLM+VAL backprompting 및 생성기만의 기준선 간의 비교를 수행합니다.
- 피드백 네 수준을 테스트합니다: 피드백 없음, 이진 피드백, 이진 피드백 + 첫 오류 피드백, 이진 피드백 + 모든 오류 피드백.
실험 결과
연구 질문
- RQ1자체 비판이 외부 검증에 비해 계획 생성 성능을 향상시키는가?
- RQ2검증기 LLM의 정확도가 ground-truth verification(VAL)과 비교해 어떠한가, 위양(false positives)을 포함하여?
- RQ3피드백의 세분화(이진 대 상세)가 LLM+LLM 시스템의 계획 생성 성능에 영향을 주는가?
- RQ4건전한 검증기를 이용한 백prompting이 전체 시스템 신뢰도와 효율성에 미치는 영향은 무엇인가?
주요 결과
| Method | Accuracy | Avg. Number of iterations |
|---|---|---|
| LLM+LLM w/ Backprompting (BP) | 55/100 (55%) | 3.48 |
| LLM+VAL w/ BP | 88/100 (88%) | 4.18 |
| Generator LLM only w/o BP | 40/100 (40%) | 1.00 |
- LLM+LLM backprompting은 55/100 정확도(55%), 반면 LLM+VAL은 88/100(88%), 생성기-단 베이스라인은 40/100이다.
- 검증기 LLM은 61/100 정확도에 도달했고, 54 true positives와 38 false positives를 기록했다(false positives 38/45).
- 외부 VAL 검증기는 자기 비판적 LLM 검증기에 비해 성능과 신뢰성을 크게 향상시킨다.
- 피드백 세분화(이진 대 상세)는 정확한 이진 피드백이 제공될 때 계획 생성 성능에 미치는 영향이 미미했다.
- 평균 반복 횟수는 LLM+LLM BP에서 3.48, LLM+VAL BP에서 4.18로, 외부 검증에도 불구하고 반복 횟수 차이가 비슷함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.