[论文解读] When do you need Chain-of-Thought Prompting for ChatGPT?
本文探讨 Chain-of-Thought 提示是否仍对 ChatGPT 有用(一个经过指令微调的 LLM),并发现 ChatGPT 常记忆 CoT,且在算术任务上在没有显式 CoT 提示时可能也会提高,而 CoT 可能降低算术任务的表现,并且对非算术任务的影响也具有不稳定性。
Chain-of-Thought (CoT) prompting can effectively elicit complex multi-step reasoning from Large Language Models~(LLMs). For example, by simply adding CoT instruction ``Let's think step-by-step'' to each input query of MultiArith dataset, GPT-3's accuracy can be improved from 17.7\% to 78.7\%. However, it is not clear whether CoT is still effective on more recent instruction finetuned (IFT) LLMs such as ChatGPT. Surprisingly, on ChatGPT, CoT is no longer effective for certain tasks such as arithmetic reasoning while still keeping effective on other reasoning tasks. Moreover, on the former tasks, ChatGPT usually achieves the best performance and can generate CoT even without being instructed to do so. Hence, it is plausible that ChatGPT has already been trained on these tasks with CoT and thus memorized the instruction so it implicitly follows such an instruction when applied to the same queries, even without CoT. Our analysis reflects a potential risk of overfitting/bias toward instructions introduced in IFT, which becomes more common in training LLMs. In addition, it indicates possible leakage of the pretraining recipe, e.g., one can verify whether a dataset and instruction were used in training ChatGPT. Our experiments report new baseline results of ChatGPT on a variety of reasoning tasks and shed novel insights into LLM's profiling, instruction memorization, and pretraining dataset leakage.
研究动机与目标
- 评估在多样推理任务中,对 ChatGPT 与 GPT-3 的三种零-shot 提示策略的有效性。
- 在指令微调(IFT)和 RLHF 之后,检查 CoT 提示是否仍对 ChatGPT 有益。
- 分析观察到的行为是否表明存在指令记忆和潜在的预训练数据泄漏。
- 探讨对数据集推断攻击和大语言模型画像的影响。
提出的方法
- (i) 使用触发词的零-shot
- (ii) 不含指令的零-shot(两阶段,带先前答案)
- (iii) 使用 CoT 指令的零-shot(两阶段)
- 在算术、常识、符号及其他推理任务上,使用既定数据集进行测试(GSM8K, MultiArith, AddSub, SVAMP, AQuA, SingleOp, CSQA, StrategyQA, Last Letter, Coin-flip, Date, Object)。
- 报告准确性结果并分析模型与任务之间的模式,以评估指令记忆和提示效果。
- 讨论对预训练配方泄漏和数据集推断的影响;将发现与 IFT 和 RLHF 实践联系起来。
实验结果
研究问题
- RQ1CoT 提示是否在跨任务类型的零-shot 推理中继续改善 ChatGPT?
- RQ2ChatGPT 的表现是否受到来自指令微调的记忆化 CoT 指令的影响?
- RQ3提示差异是否能揭示预训练数据泄漏或任务/指令泄漏在大语言模型中的存在?
主要发现
- ChatGPT 常在未被提示的情况下自发生成算术任务的 CoT 风格步骤,从而给出高质量答案。
- CoT 提示并不持续改善 ChatGPT 的算术推理,甚至可能降低若干算术任务的准确性。
- 在非算术推理任务中,CoT 提示通常能帮助 ChatGPT,类似于 GPT-3,尽管影响因任务而异。
- ChatGPT 的隐式 CoT 指令记忆——IFT 的结果——可能优于显式 CoT 提示,表明对 IFT 指令的潜在过拟合。
- 触发词与 CoT 提示之间提示模式的差异可能揭示 ChatGPT 的预训练配方或数据集泄漏。
- 该研究为 ChatGPT 在多样任务中提供基线的零-shot 推理结果,凸显了任务与提示依赖的行为。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。