[論文レビュー] An automatically discovered chain-of-thought prompt generalizes to novel models and datasets
本研究は、ゼロショット思考チェーン(CoT)プロンプトが複数の新しいLLMとデータセットに跨って一般化することを示しており、GPT-4は自動的に発見されたCoTプロンプトから特に恩恵を受ける。
Emergent chain-of-thought (CoT) reasoning capabilities promise to improve performance and explainability of large language models (LLMs). However, uncertainties remain about how reasoning strategies formulated for previous model generations generalize to new model generations and different datasets. In this small-scale study, we compare different reasoning strategies induced by zero-shot prompting across six recently released LLMs (davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl and Cohere command-xlarge) on a mixture of six question-answering datasets, including datasets from scientific and medical domains. Our findings demonstrate that while some variations in effectiveness occur, gains from CoT reasoning strategies remain robust across different models and datasets. GPT-4 has the most benefit from current state-of-the-art reasoning strategies and exhibits the best performance by applying a prompt previously discovered through automated discovery.
研究の動機と目的
- GPT-4を含む異なる世代のモデルと多様なQAデータセットに対して、ゼロショットのチェーン・オブ・ソート(CoT) プロンプティング戦略がどの程度機能するかを評価する。
- 自動化手法で発見されたCoTプロンプトの頑健性と一般化可能性を評価する。
- 科学・医療・一般常識のQAタスクにおいて、直接 prompting と比較して、さまざまな推論戦略を比較する。
- データセットとモデル間で有効性を維持するプロンプトを調査し、データセット特有またはモデル特有の効果を特定する。
提案手法
- ThoughtSourceをデータフレームワークとして利用し、常識、科学、医療ドメインにまたがる6つの選択式QAデータセットを構築する。
- ゼロショット推論プロンプトを10個構築する(1つのベースライン、2つの既存設計、7つの新規設計を含み、自己批判バリアントを含む)。
- 固定温度とトークン制約の下で、6つの指示チューニング済みモデル(davinci-002, davinci-003, GPT-3.5-turbo, GPT-4, Flan-T5-xxl, Command-xlarge)をゼロショット prompting で評価する。
- Krippendorffのαを用いて正解との一致度を測定し、ブートストラップ(1000サンプル)で平均と95%CIを計算する。
- データセット別・モデル別の効果を分析し、モデル別およびデータセット別の性能を報告する。
実験結果
リサーチクエスチョン
- RQ1以前のモデル世代で発見されたゼロショットCoTプロンプトは、新しいLLMや未知のデータセットにも一般化するか。
- RQ2自動的に発見されたCoTプロンプトは、モデルとデータセット全体で確立済みプロンプト(例: Kojima、 Zhou)とどのように比較されるか。
- RQ3CoT prompting から最も堅牢な利益を示すデータセットはどれか、またこれらの戦略で最も恩恵を受けるモデルはどれか。
- RQ4CoTの有効性に影響を与える顕著な制限やモデル/データセット特有の問題はあるか。
- RQ5CoTプロンプトと直接 prompting を使用した場合のモデル間の全体的な性能階層はどうなるか。
主な発見
- 推論を含む prompting は、モデルプロンプトとデータセット全体で直接 prompting を上回る傾向を示す。
- GPT-4は推論プロンプトから最も高い利益を得る。 Zhouの自動発見プロンプトは設定に応じてαが約0.68–0.78の範囲で、モデルを超えて強い性能を維持する。
- 自己批判プロンプトは比較的成績が悪く、スコアリングから除外された複数の回答を生み出すことがある。
- WorldTree v2とCommonsenseQAは高性能なモデルで容易になる。一方StrategyQAはデータセット固有の弱点を示し、さらなるデータセットの精練を要する。
- GPT-3.5-turboとGPT-4が最も強力なモデル全体の性能を示し、テストしたモデルの中でGPT-4が最良の総合結果を示す(例: 平均α ~0.78)。
- Flan-T5-xxlはサイズの割に良好な性能を示すが、いくつかのサブデータセットでの訓練からのデータ汚染の影響を受ける可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。