[論文レビュー] When do you need Chain-of-Thought Prompting for ChatGPT?
本論文は、Chain-of-Thought promptingがChatGPT(instruction-finetuned LLM)にとって依然として有用かどうかを調査し、ChatGPTはしばしばCoTを記憶し、算術タスクでは明示的なCoTプロンプトなしでも改善する場合がある一方、CoTは算術のパフォーマンスを妨げることがあり、非算術タスクへの影響は変動する。
Chain-of-Thought (CoT) prompting can effectively elicit complex multi-step reasoning from Large Language Models~(LLMs). For example, by simply adding CoT instruction ``Let's think step-by-step'' to each input query of MultiArith dataset, GPT-3's accuracy can be improved from 17.7\% to 78.7\%. However, it is not clear whether CoT is still effective on more recent instruction finetuned (IFT) LLMs such as ChatGPT. Surprisingly, on ChatGPT, CoT is no longer effective for certain tasks such as arithmetic reasoning while still keeping effective on other reasoning tasks. Moreover, on the former tasks, ChatGPT usually achieves the best performance and can generate CoT even without being instructed to do so. Hence, it is plausible that ChatGPT has already been trained on these tasks with CoT and thus memorized the instruction so it implicitly follows such an instruction when applied to the same queries, even without CoT. Our analysis reflects a potential risk of overfitting/bias toward instructions introduced in IFT, which becomes more common in training LLMs. In addition, it indicates possible leakage of the pretraining recipe, e.g., one can verify whether a dataset and instruction were used in training ChatGPT. Our experiments report new baseline results of ChatGPT on a variety of reasoning tasks and shed novel insights into LLM's profiling, instruction memorization, and pretraining dataset leakage.
研究の動機と目的
- ChatGPTとGPT-3の多様な推論タスクで3つのゼロショット prompting戦略の有効性を評価する。
- ChatGPTがIFTとRLHFの後もCoT promptingが有益であり続けるかを検討する。
- 観察された挙動がinstruction memorizationおよび事前学習データの流出の可能性を示唆するかを分析する。
- データセット推定攻撃とLLMプロファイリングへの影響を検討する。
提案手法
- GPT-3とChatGPTの3つのゼロショット prompting戦略を比較する: (i) トリガーワード付きゼロショット、(ii) 指示なしのゼロショット( prior answer での2段階)、(iii) CoT指示付きゼロショット(2段階)。
- GSM8K、MultiArith、AddSub、SVAMP、AQuA、SingleOp、CSQA、StrategyQA、Last Letter、Coin-flip、Date、Object などの確立されたデータセットを用いて算術、常識、記号、その他の推論タスクをテストする。
- 精度の結果を報告し、モデルとタスク間のパターンを分析してinstruction memorizationと prompting効果を評価する。
- 事前学習レシピの流出とデータセット推定に関する含意を論じ、IFTおよびRLHFの実践と関連づける。
実験結果
リサーチクエスチョン
- RQ1CoT promptingはタスク種別を問わずChatGPTのゼロショット推論を改善し続けるか?
- RQ2ChatGPTのパフォーマンスはinstruction finetuningからのCoT指示を記憶により影響されるか?
- RQ3 promptingの違いは、事前学習データの流出やLLMのタスク/指示流出を明らかにするか?
主な発見
- ChatGPTは、CoTを明示的に促されなくても算術タスクでCoT様の手順を自発的に生成し、高品質な回答を生むことが多い。
- CoT promptingは算術推論で一貫してChatGPTの改善をもたらさず、いくつかの算術タスクで精度を低下させることさえある。
- 非算術推論タスクでは、CoT promptingは通常ChatGPTをGPT-3と同様に改善するが、タスクによって効果は異なる。
- IFTの結果としてChatGPTによる暗黙のCoT指示の記憶は、明示的なCoTプロンプトより優れた性能を示すことがあり、IFT指示への過適合の可能性を示唆する。
- トリガーワードとCoTの promptingパターンの違いは、ChatGPTにおける事前学習レシピまたはデータセットの流出の可能性を示す手がかりと なり得る。
- 本研究は、多様なタスクに対するChatGPTの基準ゼロショット推論結果を提供し、タスクおよびプロンプト依存の挙動を浮き彫りにする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。