[논문 리뷰] SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning
SelfCheck는 각 단계의 추론을 검증하기 위해 제로샷, 다단계 검사를 사용한 다음 여러 해답에 걸쳐 가중 투표를 적용하여 GSM8K, MathQA, MATH에서 외부 데이터나 미세조정 없이 최종 정확도를 향상시킵니다.
The recent progress in large language models (LLMs), especially the invention of chain-of-thought prompting, has made it possible to automatically answer questions by stepwise reasoning. However, when faced with more complicated problems that require non-linear thinking, even the strongest LLMs make mistakes. To address this, we explore whether LLMs are able to recognize errors in their own step-by-step reasoning, without resorting to external resources. To this end, we propose SelfCheck, a general-purpose zero-shot verification schema for recognizing such errors. We then use the results of these checks to improve question-answering performance by conducting weighted voting on multiple solutions to the question. We test SelfCheck on three datasets (GSM8K, MathQA, and MATH) and find that it successfully recognizes errors and, in turn, increases final answer accuracies.
연구 동기 및 목표
- 표준 연쇄 사고(prompting) 흐름을 넘어 신뢰할 수 있는 다단계 추론의 필요성을 제시한다.
- 외부 자원 없이 개별 단계의 오류를 식별하는 제로샷 자체 검토 스키마를 제안한다.
- 개별 단계 검사가 가중 투표를 통한 전반적 해답의 신뢰도 점수에 어떻게 통합되어 전체 답변을 향상시키는지 보여준다.
- 여러 수학 데이터셋에서의 효과를 입증하고 설계 선택을 정당화하기 위한 어블레이션 분석을 수행한다.
제안 방법
- 선행 단계에 조건화된 각 단계가 평가되는 제로샷 검사기(SelfCheck)를 소개한다.
- 단계 검사를 네 가지 단계로 분해한다: 대상 추출, 정보 수집, 단계 재생성, 결과 비교.
- 수집된 정보를 사용해 독립적인 대안 단계를 재생성하고 이를 원래 단계와 비교하여 정확성을 평가한다.
- 개별 단계 검사로부터 전체 신뢰도 점수 w를 계산하여 여러 해답에 걸친 가중 투표를 가능하게 한다.

실험 결과
연구 질문
- RQ1제로샷 LLM 기반 검사기가 외부 데이터 없이 자신의 단계별 추론에서 오류를 식별할 수 있는가?
- RQ2단계를 재생성하고 이를 원래 단계와 비교하는 것이 직접 검사보다 신뢰성을 향상시키는가?
- RQ3해답별 신뢰도 점수가 여러 해답에 걸친 가중 투표를 통해 최종 정답의 정확도를 높일 수 있는가?
주요 결과
- SelfCheck은 데이터셋과 설정에 따라 단순 다수결 voting 대비 최종 정답 정확도를 향상시킨다.
- 이 접근법은 의미 있는 신뢰도 추정치를 산출하며, 신뢰도로 필터링할 때 GSM8K, MathQA, MATH*에서 각각 9%, 22.8%, 16.2%의 잘못된 해를 줄인다.
- 단계 검사를 위한 재생성-비교 방식은 전역 검사나 단일 단계 검사보다 어블레이션에서 우수하게 나타난다.
- 다른 생성기/검사기 쌍(저렴한 LLM 포함)도 개선을 제공할 수 있으며, 생성과 검사 간의 비상관성/상관도 감소의 이점을 보여준다.
- 더 많은 해답을 앙상블하면 SelfCheck가 다수결보다 지속적으로 우수하며, 앙상블 크기가 커져도 이득이 유지된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.