[논문 리뷰] Self-Consistency Improves Chain of Thought Reasoning in Language Models
본 논문은 self-consistency를 도입한다. 이는 다양한 chain-of-thought 경로를 샘플링하고 가장 일관된 최종 답을 집계하는 디코딩 전략으로, 추가 학습 없이 산술 및 상식 과제에서 추론 정확도를 크게 향상시킨다.
Chain-of-thought prompting combined with pre-trained large language models has achieved encouraging results on complex reasoning tasks. In this paper, we propose a new decoding strategy, self-consistency, to replace the naive greedy decoding used in chain-of-thought prompting. It first samples a diverse set of reasoning paths instead of only taking the greedy one, and then selects the most consistent answer by marginalizing out the sampled reasoning paths. Self-consistency leverages the intuition that a complex reasoning problem typically admits multiple different ways of thinking leading to its unique correct answer. Our extensive empirical evaluation shows that self-consistency boosts the performance of chain-of-thought prompting with a striking margin on a range of popular arithmetic and commonsense reasoning benchmarks, including GSM8K (+17.9%), SVAMP (+11.0%), AQuA (+12.2%), StrategyQA (+6.4%) and ARC-challenge (+3.9%).
연구 동기 및 목표
- 표준 체인-오브-생각 프롬프트를 넘어 대형 언어 모델의 추론 능력 개선의 필요성을 제기한다.
- 가장 신뢰할 수 있는 답을 식별하기 위해 다양한 추론 경로를 생성하는 디코딩 방법을 제안한다.
- 여러 모델과 추론 벤치마크에 걸쳐 강건성과 성능 향상을 입증한다.
- 이 접근법이 추가 감독이나 미세조정이 필요하지 않음을 보여준다.
- 모델 출력으로부터 불확실성 추정 및 근거 수집의 가능성을 탐색한다.
제안 방법
- 이전 CoT 프롬 prompting과 같이 체인-오브-생각 예시로 모델을 자극한다.
- 온도, top-k, 누클리어(nucleus) 전략을 사용하여 모델의 디코더에서 다양한 추론 경로를 샘플링한다.
- 샘플링된 추론 경로를 주변화(marginalize)하여 최종 답을 집계하고 가장 일관된 답을 선택한다(다수결 또는 가중 합산).
- 각 샘플링된 경로를 최종 답과 추론 단계를 연결하는 잠재 변수로 간주하되 보조 모델을 추가로 학습하지 않는다.
- 집계 전략(다수결 대 가중 합산)을 비교하고 가장 일관된 정답이 더 좋은 성능을 낸다는 것을 입증한다.
- self-consistency가 비지도, 모델에 구애받지 않으며 미세조정이나 추가 주석이 필요하지 않음을 시연한다.
실험 결과
연구 질문
- RQ1샘플링을 통해 추론 경로의 다양성을 도입하면 탐욕적 체인-오브-생각 디코딩을 넘는 최종 정답 정확도가 향상되는가?
- RQ2여러 샘플링된 경로 간에 최종 답을 어떻게 집계해야 정확도를 최대화할 수 있는가?
- RQ3self-consistency 접근법이 모델 규모, 프롬프트 전략, 샘플링 매개변수에 걸쳐 견고한가?
- RQ4self-consistency가 불확실성 추정치를 제공하거나 프롬프트가 불완전한 상황에서 도움을 줄 수 있는가?
- RQ5self-consistency가 sample-and-rank, 빔 검색, 앙상블과 어떻게 비교되는가?
주요 결과
- Self-consistency는 산술 및 상식 과제 전반에서 표준 chain-of-thought prompting에 비해 상당한 정확도 향상을 가져온다.
- 향상은 더 큰 모델에서 더 크며(예: LaMDA-137B, PaLM-540B, GPT-3) 여러 벤치마크에서 새로운 최첨단 수준에 도달한다.
- GSM8K, SVAMP, AQuA, StrategyQA, ARC-challenge와 같은 과제에서 보고된 향상은 각각 최대 +17.9%, +11.0%, +12.2%, +6.4%, +3.9%에 이른다.
- 다수의 샘플링 경로에 대해 정규화된 가중합 또는 다수결 방식으로 집계하는 것이 비가중 접근 방식이나 단일 경로의 탐욕적 디코딩보다 더 우수하다.
- Self-consistency는 샘플링 전략과 모델 프롬프트에 대해 견고하며, 체인-오브-생각이 표준 프롬프트에 해를 끼칠 때도 성능을 개선할 수 있다.
- sample-and-rank, 빔 검색, 앙상블 방법과 비교할 때, self-consistency는 단일 모델에서 더 큰 이득을 주고 추가 학습이 필요하지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.