[論文レビュー] Zero-Shot Chain-of-Thought Reasoning Guided by Evolutionary Algorithms in Large Language Models
本論文は zero-shot EoT prompting を提案し、進化的アルゴリズムを用いて LLMs のために事例ごとに CoT prompting を生成し、書き換えを行い、多様なデータセットでの推論を改善する。
Large Language Models (LLMs) have demonstrated remarkable performance across diverse tasks and exhibited impressive reasoning abilities by applying zero-shot Chain-of-Thought (CoT) prompting. However, due to the evolving nature of sentence prefixes during the pre-training phase, existing zero-shot CoT prompting methods that employ identical CoT prompting across all task instances may not be optimal. In this paper, we introduce a novel zero-shot prompting method that leverages evolutionary algorithms to generate diverse promptings for LLMs dynamically. Our approach involves initializing two CoT promptings, performing evolutionary operations based on LLMs to create a varied set, and utilizing the LLMs to select a suitable CoT prompting for a given problem. Additionally, a rewriting operation, guided by the selected CoT prompting, enhances the understanding of the LLMs about the problem. Extensive experiments conducted across ten reasoning datasets demonstrate the superior performance of our proposed method compared to current zero-shot CoT prompting methods on GPT-3.5-turbo and GPT-4. Moreover, in-depth analytical experiments underscore the adaptability and effectiveness of our method in various reasoning tasks.
研究の動機と目的
- 動的に進化する事前学習中の文頭プレフィックスの変化に伴う、事例ごとの多様な Chain-of-Thought prompting の必要性を動機づける。
- 特定の問題に対して最良を選択するために、複数の CoT prompting を生成し選択する、進化アルゴリズムに基づく手順を提案する。
- 選択された CoT prompting の下で R(Q) を用いて問題を再表現し、推論を実行する前に問題理解を強化する。
提案手法
- 問題ごとに2つの CoT prompting を初期化し、LLM ベースのクロスオーバーと突然変異を適用して多様な prompting プールを作成する。
- LLM を進化的最適化子として用い、T_c = LLM-Crossover(T1, T2) および T_m = LLM-Mutation(T_c) を実行する。
- 生成されたプールから現在の問題に最も適した CoT prompting T_o を選択する。
- R(Q) を用いて問題を T_o で書き換え、その後中間ステップと最終回答の抽出を行う。
- 「Therefore, the answer (arabic numerals) is」 のようなトリガー文を用いて最終解を抽出する。
- greedy decoding(temperature 0)と自己一貫性が適用可能な場合には自己一貫性を用いて、データセット全体を評価する。

実験結果
リサーチクエスチョン
- RQ1演化操作によって生成された事例ごとの CoT prompting は、均一なゼロショット CoT prompting と比べて推論を改善できるか?
- RQ2選択された CoT prompting によって導かれる問題書き換えは、LLM の理解と推論性能を高めるか?
- RQ3EoT prompting は算術・常識・象徴タスクの点で、ゼロショット CoT、PS/PS+ prompting、RE2、few-shot CoT ベースラインとどう比較されるか?
- RQ4集団サイズ、初期 prompting、自己一貫性が EoT prompting の性能に与える影響は?
主な発見
| Method | マルチ算術 | GSM8K | AddSub | AQuA | SingleEq | SVAMP | 平均 |
|---|---|---|---|---|---|---|---|
| Zero-shot CoT | 95.3 | 75.3 | 86.5 | 55.3 | 92.9 | 79.0 | 80.7 |
| Zero-shot PS | 92.4 | 76.3 | 85.7 | 56.7 | 90.1 | 75.8 | 79.5 |
| Zero-shot PS+ | 93.8 | 76.1 | 86.6 | 58.9 | 92.5 | 79.4 | 81.2 |
| Zero-shot RE2 | 96.9 | 76.9 | 88.7 | 59.9 | 91.8 | 79.7 | 82.3 |
| Zero-shot EoT (ours) | 96.4 | 76.8 | 91.1 | 62.2 | 93.5 | 81.2 | 83.5 |
| Few-shot Manual-CoT | 95.4 | 75.9 | 89.9 | 58.7 | 92.3 | 81.1 | 82.2 |
| Few-shot AuTo-CoT | 96.2 | 77.3 | 90.7 | 61.7 | 92.7 | 81.8 | 83.4 |
- EoT prompting は十のデータセット全体で、ゼロショット CoT、PS、PS+、RE2 prompting を上回り、特に算術と象徴的推論で優位である。
- GPT-3.5-turbo では、EoT は算術タスクで zero-shot CoT に対して平均 2.8%、PS+ に対して 2.3% の向上をもたらす。
- GPT-4 では、AQuA、AddSub、SVAMP において、EoT が比較対象のゼロショットベースラインより高い精度を達成。
- EoT prompting はいくつかの算術データセットで few-shot CoT prompting に近い性能を示す。
- アブレーションでは、書き換え(R)が有益であり、クロスオーバー(C)または変異(M)を除去すると、特に AQuA で性能が低下することが示される。
- 自己一貫性は複数の算術タスクで EoT の性能をさらに向上させる。
- CoT prompting のプンプト集のサイズ N を増やすと、一般に性能が向上するが、速度とのトレードオフが生じる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。