Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Reflection in LLM Agents: Effects on Problem-Solving Performance

Matthew Renze, Erhan Guven|arXiv (Cornell University)|2024. 05. 05.
Multi-Agent Systems and Negotiation인용 수 11
한 줄 요약

이 논문은 아홉 개의 인기 있는 LLM이 실수를 반성하도록 허용하면 MCQA 문제 해결 성능이 크게 향상되며, 더 정보에 풍부한 반성 유형일수록 더 큰 이익이 여러 모델과 도메인에 걸쳐 나타난다.

ABSTRACT

In this study, we investigated the effects of self-reflection in large language models (LLMs) on problem-solving performance. We instructed nine popular LLMs to answer a series of multiple-choice questions to provide a performance baseline. For each incorrectly answered question, we instructed eight types of self-reflecting LLM agents to reflect on their mistakes and provide themselves with guidance to improve problem-solving. Then, using this guidance, each self-reflecting agent attempted to re-answer the same questions. Our results indicate that LLM agents are able to significantly improve their problem-solving performance through self-reflection ($p < 0.001$). In addition, we compared the various types of self-reflection to determine their individual contribution to performance. All code and data are available on GitHub at https://github.com/matthewrenze/self-reflection

연구 동기 및 목표

  • 메타 인지적 자기 반성을 활용해 LLM의 문제 해결 능력을 향상시키려는 동기 부여.
  • 자기 반성을 구별된 구성 요소로 체계적으로 분해하고 각 기여를 평가.
  • 여러 LLM과 문제 도메인을 비교해 반성이 가장 큰 이익을 주는 곳을 식별.
  • 자기 반성을 활용하는 에이전트 지향 LLM 시스템을 설계하는 데 실용적인 지침을 제공.

제안 방법

  • 여러 벤치마크(ARC, AGIEval, Hellaswag, MedMCQA 등)에서 다 도메인 1,000문항 MCQA 시험을 구성.
  • 베이스라인(자기 반성 없음) 프롬프트로 9개 LLM을 평가해 성능 벤치마크를 얻는다.
  • 각 오답 Baseline 아이템에 대해 여덟 가지 자기 반성 유형(Retry, Keywords, Advice, Explanation, Instructions, Solution, Composite, Unredacted)을 실행해 올바른 답을 피드백으로 사용해 가이드를 생성.
  • 자기 반성을 재답 프롬프트에 주입하고 이전에 잘못된 질문만 재해결.
  • 자기 반성에서 정답을 발췌(Unredacted 에이전트를 제외하고)하여 유출을 방지.
  • 정확도를 (Baseline 정답 + 재답 정답) / Baseline 총계로 계산하고 McNemar 검정으로 유의성 평가.
Figure 1: Diagram of the self-reflection experiment.
Figure 1: Diagram of the self-reflection experiment.

실험 결과

연구 질문

  • RQ1자기 반성 전략이 다양한 LLM에서 MCQA 성능을 향상시키는가?
  • RQ2어떤 유형의 자기 반성이 성능 향상에 가장 크게 기여하는가?
  • RQ3반성 이점이 문제 도메인과 모델에 따라 어떻게 다른가?
  • RQ4자기 반성 프롬프트와 관련된 한계 및 누출 위험은 무엇인가?

주요 결과

에이전트정확도차이검정통계량p-값
Baseline0.786N/AN/AN/A
Retry0.8270.04139.024<0.001
Keywords0.8320.04644.022<0.001
Advice0.8400.05452.019<0.001
Instructions0.8490.06361.016<0.001
Explanation0.8760.09088.011<0.001
Solution0.9250.139137.007<0.001
Composite0.9320.146144.007<0.001
Unredacted0.9710.185183.005<0.001
  • 모든 자기 반성 유형이 테스트된 모든 LLM에서 베이스라인보다 정확도를 크게 향상시켰다(p < 0.001).
  • 정보가 더 풍부한 반성 유형(예: Instructions, Explanation, Solution, Composite)이 더 가벼운 유형(Retry, Keywords, Advice)보다 더 큰 정확도 향상을 보였다.
  • Unredacted 에이전트가 GPT-4 중 모든 에이전트 중 가장 높은 정확도(0.971)를 달성해 누출 제어 없이 상한을 설정했다.
  • 모델 전반에 걸쳐 LSAT-AR이 가장 큰 개선을 보였고, SAT-English과 같은 일부 도메인은 더 작은 이익을 보였다.
  • 심플한 Retry 반성조차도 주목할 만한 이익을 낳아, 단순히 이전 오류를 신호로 주는 것만으로도 이후 시도가 향상될 수 있음을 시사한다.
Figure 2: All self-reflection types improved the accuracy of GPT-4 agents.
Figure 2: All self-reflection types improved the accuracy of GPT-4 agents.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.