[논문 리뷰] Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms in Large Language Models
본 논문은 zero-shot EoT prompting을 도입하고, 진화 알고리즘을 사용해 LLM용 인스턴스별 CoT 프롬프트를 생성하며 재작성을 통해 다양한 데이터셋에서 추론 성능을 향상시킨다.
Large Language Models (LLMs) have demonstrated remarkable performance across diverse tasks and exhibited impressive reasoning abilities by applying zero-shot Chain-of-Thought (CoT) prompting. However, due to the evolving nature of sentence prefixes during the pre-training phase, existing zero-shot CoT prompting methods that employ identical CoT prompting across all task instances may not be optimal. In this paper, we introduce a novel zero-shot prompting method that leverages evolutionary algorithms to generate diverse promptings for LLMs dynamically. Our approach involves initializing two CoT promptings, performing evolutionary operations based on LLMs to create a varied set, and utilizing the LLMs to select a suitable CoT prompting for a given problem. Additionally, a rewriting operation, guided by the selected CoT prompting, enhances the understanding of the LLMs about the problem. Extensive experiments conducted across ten reasoning datasets demonstrate the superior performance of our proposed method compared to current zero-shot CoT prompting methods on GPT-3.5-turbo and GPT-4. Moreover, in-depth analytical experiments underscore the adaptability and effectiveness of our method in various reasoning tasks.
연구 동기 및 목표
- 사전 학습 중 문장 접두사가 진화함에 따라 인스턴스별로 다양한 Chain-of-Thought 프롬프팅의 필요성을 제기한다.
- 주어진 문제에 대해 다수의 CoT 프롬 prompts를 생성하고 최적의 것을 선택하는 진화 알고리즘 기반 절차를 제안한다.
- 추론 전에 선택된 CoT 프롬프트를 사용하여 문제를 재작성함으로써 문제 이해를 향상시킨다.
제안 방법
- 문제당 두 개의 CoT 프롬프팅을 초기화하고 LLM 기반 교차(Crossover)와 돌연변이(Mutation)를 적용해 다양한 프롬프트 풀을 생성한다.
- LLM을 진화 최적화기로 사용해 T_c = LLM-Crossover(T1, T2) 및 T_m = LLM-Mutation(T_c)를 수행한다.
- 생성된 풀에서 현재 문제에 가장 적합한 CoT 프롬프트 T_o를 선택한다.
- T_o를 사용하여 R(Q)로 문제를 재작성한 다음 중간 단계와 최종 답 추출을 통해 추론을 수행한다.
- 최종 답을 추출하기 위해 'Therefore, the answer (arabic numerals) is'와 같은 트리거 문장을 사용한다.
- 가능한 경우 그리디 디코딩(temperature 0)과 self-consistency를 사용하여 데이터셋 전반을 평가한다.]
- research_questions:[
- Can instance-specific CoT prompts generated via evolutionary operations improve zero-shot reasoning compared to uniform zero-shot CoT prompting?
- Does problem rewriting guided by the selected CoT prompt enhance LLM understanding and reasoning performance?
- How does EoT prompting compare to zero-shot CoT, PS/PS+ prompting, RE2, and few-shot CoT baselines across arithmetic, commonsense, and symbolic tasks?
- What is the impact of population size, initialization prompts, and self-consistency on EoT prompting performance?

실험 결과
연구 질문
- RQ1instance-specific CoT prompts generated via evolutionary operations가 균일한 zero-shot CoT 프롬 prompting에 비해 제로샷 추론을 향상시킬 수 있는가?
- RQ2선택된 CoT 프롬프트에 의해 안내된 문제 재작성이 LLM의 이해 및 추론 성능을 향상시키는가?
- RQ3EoT prompting은 산술, 상식 및 상징적 작업에서 zero-shot CoT, PS/PS+ prompting, RE2 및 few-shot CoT 벤치마크와 어떻게 비교되는가?
- RQ4인구 크기, 초기화 프롬프트, 및 self-consistency가 EoT prompting 성능에 어떤 영향을 미치는가?
주요 결과
- EoT prompting은 10개 데이터셋에 걸쳐 zero-shot CoT, PS, PS+, RE2 프롬 prompting을 능가하며, 특히 산술 및 상징적 추론에서 강력하다.
- GPT-3.5-turbo에서 EoT는 산술 작업에서 zero-shot CoT 대비 평균 2.8%, PS+ 대비 평균 2.3%의 이득을 얻는다.
- GPT-4에서는 EoT가 AQuA, AddSub, SVAMP에서 비교 대상 zero-shot 벤치마크보다 높은 정확도를 달성한다.
- EoT prompting은 여러 산술 데이터셋에서 few-shot CoT prompting의 성능에 근접한다.
- ablation에서 재작성(R)이 유익하며, 교차(C) 또는 돌연변이(M)를 제거하면 일반적으로 성능이 저하되며, 특히 AQuA에서 그렇다.
- Self-consistency는 여러 산술 작업에서 EoT 성능을 더 향상시킨다.
- CoT 프롬프트 풀의 크기 N을 늘리면 일반적으로 성능이 향상되지만 속도와의 트레이드오프가 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.