[论文解读] The Unreasonable Effectiveness of Eccentric Automatic Prompts
本文量化了“positive thinking”系统消息如何影响LLM,并展示自动提示优化在GSM8K上通常优于人工提示,但存在显著的模型特定特征。
Large Language Models (LLMs) have demonstrated remarkable problem-solving and basic mathematics abilities. However, their efficacy is highly contingent on the formulation of the prompt. This study endeavors to quantify the influence of incorporating "positive thinking" into the system message of the prompt, then compare that to systematic prompt optimization. We assess the performance of 60 combinations of system message snippets, tested with and without Chain of Thought prompting, across three models with parameters ranging from 7 to 70 billion on the GSM8K dataset. Our findings reveal that results do not universally generalize across models. In most instances, the inclusion of "positive thinking" prompts positively affected model performance. Notably, however, Llama2-70B exhibited an exception when not utilizing Chain of Thought, as the optimal system message was found to be none at all. Given the combinatorial complexity, and thus computation time, of experimenting with hand-tuning prompts for large black-box models, we then compared the performance of the best "positive thinking" prompt against the output of systematic prompt optimization. We show that employing an automated prompt optimizer emerges as the most effective method for enhancing performance, even when working with smaller open-source models. Additionally, our findings reveal that the highest-scoring, automatically-optimized prompt exhibits a degree of peculiarity far beyond expectations.
研究动机与目标
- 评估添加乐观的系统消息(“positive thinking”)如何影响LLM在多步数学问题上的表现。
- 在性能和泛化方面比较手动提示与自动提示优化。
- 评估在GSM8K上,效应是否在不同模型和提示策略之间有所不同。
提出的方法
- 测试60种系统消息提示组合(5个开头 × 3个任务描述 × 4个结尾),有无 Chain of Thought (CoT)。
- 在GSM8K上使用 Exact Match (EM) 评分,对三个模型(Mistral-7B、Llama2-13B、Llama2-70B)在10–100个问题子集上评估。
- 使用带有四个示例提示的上下文学习来塑造输出格式。
- 在相同问题子集上,将手动的正向思维提示与DSPy自动提示优化进行比较。
- 通过优化集与评估集之间的性能差异来分析泛化。
- 突出自动优化生成的提示中显著不同的提示。
实验结果
研究问题
- RQ1在系统提示中加入“positive thinking”片段是否能提升跨模型的GSM8K数学题解?
- RQ2在平均性能和泛化方面,自动提示优化如何与手动调整的“positive thinking”提示相比?
- RQ3在提示策略的有效性方面是否观察到模型特定的趋势(如CoT、提示不变性等)?
- RQ4在给定组合式提示变化的情况下,对提示大型黑箱模型的实际意义是什么?
主要发现
- 自动提示优化通常在跨模型和题目数量下达到甚至超过手动调优的“positive thinking”提示的表现。
- 仍存在一些例外:在10–25题时Mistral-7B的手动提示优于自动优化,在10题时Llama2-70B的手动提示优于自动优化。
- 对于Llama2-13B和Llama2-70B,自动优化的提示在各种规模下显示出更低的泛化误差(delta),表明更好的泛化。
- 在没有 Chain of Thought 提示时,提示变异性较低,“positive thinking”通常不提高性能;有CoT时,提示往往带来更大提升和更高的变异性。
- 最高分的自动生成提示甚至可以非常非常规(例如星际迷航主题的前缀),仍然优于手工设计的提示。
- 强调了一个可重复性问题:出版商报告的分数可能与在相同提示下获得的结果显著不同;为实现复制,必须公开提示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。