[논문 리뷰] Universal Self-Consistency for Large Language Model Generation
USC는 LLM 자체를 활용하여 여러 후보 중 가장 일관된 응답을 선택합니다. 이는 자유 형식 생성 작업에서 자동 일관성을 가능하게 하며, 해당 가능한 경우 표준 자기 일관성과 일치하거나 근접합니다.
Self-consistency with chain-of-thought prompting (CoT) has demonstrated remarkable performance gains on various challenging tasks, by utilizing multiple reasoning paths sampled from large language models (LLMs). However, self-consistency relies on the answer extraction process to aggregate multiple solutions, which is not applicable to free-form answers. In this work, we propose Universal Self-Consistency (USC), which leverages LLMs themselves to select the most consistent answer among multiple candidates. We evaluate USC on a variety of benchmarks, including mathematical reasoning, code generation, long-context summarization, and open-ended question answering. On open-ended generation tasks where the original self-consistency method is not applicable, USC effectively utilizes multiple samples and improves the performance. For mathematical reasoning, USC matches the standard self-consistency performance without requiring the answer formats to be similar. Finally, without access to execution results, USC also matches the execution-based voting performance on code generation.
연구 동기 및 목표
- 정확한 일치 답 추출의 필요성을 제거하여 자기 일관성을 자유 형식 생성 작업으로 확장한다.
- 다양한 작업에서 LLM 기반 일관성 평가가 고품질 출출을 선택할 수 있음을 입증한다.
- 실행 추적이 필요하지 않은 적용 가능한 작업에서 USC가 표준 자기 일관성과 일치하거나 근접하게 도달함을 보인다.
제안 방법
- LLM으로부터 다수의 응답을 샘플링한다.
- 샘플을 연결하고 LLM에 가장 일관된 응답을 최종 정답으로 선택하도록 프롬프트한다.
- 수학적 추론, 코드 생성, 긴 맥락 요약, 자유로운 QA에 USC를 적용한다.
- 적용 가능할 때 USC를 탐욕적, 무작위 및 표준 자기 일관성(SC)과 비교한다.
- 작업 특화 지표를 사용하여 평가한다(예: GSM8K, MATH, BIRD-SQL, ARCADE, GovReport, SummScreen, TruthfulQA).
- 샘플 수와 응답 순서에 대한 강건성을 탐구하고 응답 선택 기준에 대한 소거 실험을 수행한다.

실험 결과
연구 질문
- RQ1단일 LLM 기반 선택 기준이 다양한 형식(숫자, 자유형 목록, 코드, 요약) 전반에서 가장 일관된 출력을 신뢰성 있게 선택할 수 있는가?
- RQ2정확한 일치 답이 가능한 작업에서 보편적 자기 일관성(USC)이 표준 자기 일관성(SC)의 성능과 일치하거나 근접하는가?
- RQ3SC가 적용할 수 없는 자유 형식 생성 작업에서 USC의 성능은 어떠한가? 예: 요약 및 자유형 QA.
- RQ4후보 응답의 수와 응답 순서가 USC 성능에 미치는 영향은 무엇인가?
주요 결과
- USC는 일반적으로 모든 작업에서 탐욕적 디코딩과 무작위 샘플링보다 향상된다.
- 수학 벤치마크 GSM8K 및 MATH에서 USC 성능은 표준 SC와 유사하고 탐욕적/무작위보다 우수하며, PaLM 2-L은 각각 GSM8K에서 90.2%, MATH에서 37.4%를 달성; gpt-3.5-turbo는 77.8%와 38.1%를 달성한다.
- BIRD-SQL 및 ARCADE에서 USC는 실행 결과가 필요 없는 실행 기반 SC 성능과 일치한다( BIRD-SQL의 실행 정확도 45.5% 대 SC 45.6%; ARCADE에서 USC 30.1% 대 SC 29.8/30.3%의 흐림/엄밀 맥락).
- 긴 맥락 요약에서 USC는 GovReport와 SummScreen에서 기준선 대비 ROUGE-1/2/Lsum 및 BERTScore를 향상시킨다( GovReport: ROUGE-1 40.2, ROUGE-2 17.4, ROUGE-Lsum 35.1, BERTScore 62.8; SummScreen: ROUGE-1 31.7, ROUGE-2 7.8, ROUGE-Lsum 19.8, BERTScore 58.3).
- TruthfulQA에서 USC는 PaLM 2-L 및 gpt-3.5-turbo 모두에서 baselines 중 가장 높은 진실성(truthfulness) 및 정보성(informativeness) 점수를 산출한다(예: PaLM 2-L GPT-judge 67.7 대 62.1; GPT-info 99.0 대 95.1).
- USC의 선택은 많은 경우 SC 출력과 일치하지만 8샘플 대 16샘플 방식에서 차이가 있어 USC가 SC의 효과적인 근사이자 완전한 것은 아님을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.