[논문 리뷰] Self-Reflection in LLM Agents: Effects on Problem-Solving Performance
이 논문은 아홉 개의 인기 있는 LLM이 실수를 반성하도록 허용하면 MCQA 문제 해결 성능이 크게 향상되며, 더 정보에 풍부한 반성 유형일수록 더 큰 이익이 여러 모델과 도메인에 걸쳐 나타난다.
In this study, we investigated the effects of self-reflection in large language models (LLMs) on problem-solving performance. We instructed nine popular LLMs to answer a series of multiple-choice questions to provide a performance baseline. For each incorrectly answered question, we instructed eight types of self-reflecting LLM agents to reflect on their mistakes and provide themselves with guidance to improve problem-solving. Then, using this guidance, each self-reflecting agent attempted to re-answer the same questions. Our results indicate that LLM agents are able to significantly improve their problem-solving performance through self-reflection ($p < 0.001$). In addition, we compared the various types of self-reflection to determine their individual contribution to performance. All code and data are available on GitHub at https://github.com/matthewrenze/self-reflection
연구 동기 및 목표
- 메타 인지적 자기 반성을 활용해 LLM의 문제 해결 능력을 향상시키려는 동기 부여.
- 자기 반성을 구별된 구성 요소로 체계적으로 분해하고 각 기여를 평가.
- 여러 LLM과 문제 도메인을 비교해 반성이 가장 큰 이익을 주는 곳을 식별.
- 자기 반성을 활용하는 에이전트 지향 LLM 시스템을 설계하는 데 실용적인 지침을 제공.
제안 방법
- 여러 벤치마크(ARC, AGIEval, Hellaswag, MedMCQA 등)에서 다 도메인 1,000문항 MCQA 시험을 구성.
- 베이스라인(자기 반성 없음) 프롬프트로 9개 LLM을 평가해 성능 벤치마크를 얻는다.
- 각 오답 Baseline 아이템에 대해 여덟 가지 자기 반성 유형(Retry, Keywords, Advice, Explanation, Instructions, Solution, Composite, Unredacted)을 실행해 올바른 답을 피드백으로 사용해 가이드를 생성.
- 자기 반성을 재답 프롬프트에 주입하고 이전에 잘못된 질문만 재해결.
- 자기 반성에서 정답을 발췌(Unredacted 에이전트를 제외하고)하여 유출을 방지.
- 정확도를 (Baseline 정답 + 재답 정답) / Baseline 총계로 계산하고 McNemar 검정으로 유의성 평가.

실험 결과
연구 질문
- RQ1자기 반성 전략이 다양한 LLM에서 MCQA 성능을 향상시키는가?
- RQ2어떤 유형의 자기 반성이 성능 향상에 가장 크게 기여하는가?
- RQ3반성 이점이 문제 도메인과 모델에 따라 어떻게 다른가?
- RQ4자기 반성 프롬프트와 관련된 한계 및 누출 위험은 무엇인가?
주요 결과
| 에이전트 | 정확도 | 차이 | 검정통계량 | p-값 |
|---|---|---|---|---|
| Baseline | 0.786 | N/A | N/A | N/A |
| Retry | 0.827 | 0.041 | 39.024 | <0.001 |
| Keywords | 0.832 | 0.046 | 44.022 | <0.001 |
| Advice | 0.840 | 0.054 | 52.019 | <0.001 |
| Instructions | 0.849 | 0.063 | 61.016 | <0.001 |
| Explanation | 0.876 | 0.090 | 88.011 | <0.001 |
| Solution | 0.925 | 0.139 | 137.007 | <0.001 |
| Composite | 0.932 | 0.146 | 144.007 | <0.001 |
| Unredacted | 0.971 | 0.185 | 183.005 | <0.001 |
- 모든 자기 반성 유형이 테스트된 모든 LLM에서 베이스라인보다 정확도를 크게 향상시켰다(p < 0.001).
- 정보가 더 풍부한 반성 유형(예: Instructions, Explanation, Solution, Composite)이 더 가벼운 유형(Retry, Keywords, Advice)보다 더 큰 정확도 향상을 보였다.
- Unredacted 에이전트가 GPT-4 중 모든 에이전트 중 가장 높은 정확도(0.971)를 달성해 누출 제어 없이 상한을 설정했다.
- 모델 전반에 걸쳐 LSAT-AR이 가장 큰 개선을 보였고, SAT-English과 같은 일부 도메인은 더 작은 이익을 보였다.
- 심플한 Retry 반성조차도 주목할 만한 이익을 낳아, 단순히 이전 오류를 신호로 주는 것만으로도 이후 시도가 향상될 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.