QUICK REVIEW

[논문 리뷰] Universal Self-Consistency for Large Language Model Generation

Xinyun Chen, Renat Aksitov|arXiv (Cornell University)|2023. 11. 29.

Topic Modeling인용 수 9

한 줄 요약

USC는 LLM 자체를 활용하여 여러 후보 중 가장 일관된 응답을 선택합니다. 이는 자유 형식 생성 작업에서 자동 일관성을 가능하게 하며, 해당 가능한 경우 표준 자기 일관성과 일치하거나 근접합니다.

ABSTRACT

Self-consistency with chain-of-thought prompting (CoT) has demonstrated remarkable performance gains on various challenging tasks, by utilizing multiple reasoning paths sampled from large language models (LLMs). However, self-consistency relies on the answer extraction process to aggregate multiple solutions, which is not applicable to free-form answers. In this work, we propose Universal Self-Consistency (USC), which leverages LLMs themselves to select the most consistent answer among multiple candidates. We evaluate USC on a variety of benchmarks, including mathematical reasoning, code generation, long-context summarization, and open-ended question answering. On open-ended generation tasks where the original self-consistency method is not applicable, USC effectively utilizes multiple samples and improves the performance. For mathematical reasoning, USC matches the standard self-consistency performance without requiring the answer formats to be similar. Finally, without access to execution results, USC also matches the execution-based voting performance on code generation.

연구 동기 및 목표

정확한 일치 답 추출의 필요성을 제거하여 자기 일관성을 자유 형식 생성 작업으로 확장한다.
다양한 작업에서 LLM 기반 일관성 평가가 고품질 출출을 선택할 수 있음을 입증한다.
실행 추적이 필요하지 않은 적용 가능한 작업에서 USC가 표준 자기 일관성과 일치하거나 근접하게 도달함을 보인다.

제안 방법

LLM으로부터 다수의 응답을 샘플링한다.
샘플을 연결하고 LLM에 가장 일관된 응답을 최종 정답으로 선택하도록 프롬프트한다.
수학적 추론, 코드 생성, 긴 맥락 요약, 자유로운 QA에 USC를 적용한다.
적용 가능할 때 USC를 탐욕적, 무작위 및 표준 자기 일관성(SC)과 비교한다.
작업 특화 지표를 사용하여 평가한다(예: GSM8K, MATH, BIRD-SQL, ARCADE, GovReport, SummScreen, TruthfulQA).
샘플 수와 응답 순서에 대한 강건성을 탐구하고 응답 선택 기준에 대한 소거 실험을 수행한다.

Figure 1: Overview of the Universal Self-Consistency workflow.

실험 결과

연구 질문

RQ1단일 LLM 기반 선택 기준이 다양한 형식(숫자, 자유형 목록, 코드, 요약) 전반에서 가장 일관된 출력을 신뢰성 있게 선택할 수 있는가?
RQ2정확한 일치 답이 가능한 작업에서 보편적 자기 일관성(USC)이 표준 자기 일관성(SC)의 성능과 일치하거나 근접하는가?
RQ3SC가 적용할 수 없는 자유 형식 생성 작업에서 USC의 성능은 어떠한가? 예: 요약 및 자유형 QA.
RQ4후보 응답의 수와 응답 순서가 USC 성능에 미치는 영향은 무엇인가?

주요 결과

USC는 일반적으로 모든 작업에서 탐욕적 디코딩과 무작위 샘플링보다 향상된다.
수학 벤치마크 GSM8K 및 MATH에서 USC 성능은 표준 SC와 유사하고 탐욕적/무작위보다 우수하며, PaLM 2-L은 각각 GSM8K에서 90.2%, MATH에서 37.4%를 달성; gpt-3.5-turbo는 77.8%와 38.1%를 달성한다.
BIRD-SQL 및 ARCADE에서 USC는 실행 결과가 필요 없는 실행 기반 SC 성능과 일치한다( BIRD-SQL의 실행 정확도 45.5% 대 SC 45.6%; ARCADE에서 USC 30.1% 대 SC 29.8/30.3%의 흐림/엄밀 맥락).
긴 맥락 요약에서 USC는 GovReport와 SummScreen에서 기준선 대비 ROUGE-1/2/Lsum 및 BERTScore를 향상시킨다( GovReport: ROUGE-1 40.2, ROUGE-2 17.4, ROUGE-Lsum 35.1, BERTScore 62.8; SummScreen: ROUGE-1 31.7, ROUGE-2 7.8, ROUGE-Lsum 19.8, BERTScore 58.3).
TruthfulQA에서 USC는 PaLM 2-L 및 gpt-3.5-turbo 모두에서 baselines 중 가장 높은 진실성(truthfulness) 및 정보성(informativeness) 점수를 산출한다(예: PaLM 2-L GPT-judge 67.7 대 62.1; GPT-info 99.0 대 95.1).
USC의 선택은 많은 경우 SC 출력과 일치하지만 8샘플 대 16샘플 방식에서 차이가 있어 USC가 SC의 효과적인 근사이자 완전한 것은 아님을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.