[论文解读] Self-Discover: Large Language Models Self-Compose Reasoning Structures
Self-Discover 让 LLM 通过组合原子推理模块来自我发现任务内在的推理结构,在较少推理次数的情况下提升具有挑战性的推理基准。
We introduce SELF-DISCOVER, a general framework for LLMs to self-discover the task-intrinsic reasoning structures to tackle complex reasoning problems that are challenging for typical prompting methods. Core to the framework is a self-discovery process where LLMs select multiple atomic reasoning modules such as critical thinking and step-by-step thinking, and compose them into an explicit reasoning structure for LLMs to follow during decoding. SELF-DISCOVER substantially improves GPT-4 and PaLM 2's performance on challenging reasoning benchmarks such as BigBench-Hard, grounded agent reasoning, and MATH, by as much as 32% compared to Chain of Thought (CoT). Furthermore, SELF-DISCOVER outperforms inference-intensive methods such as CoT-Self-Consistency by more than 20%, while requiring 10-40x fewer inference compute. Finally, we show that the self-discovered reasoning structures are universally applicable across model families: from PaLM 2-L to GPT-4, and from GPT-4 to Llama2, and share commonalities with human reasoning patterns.
研究动机与目标
- 为任务具有内在推理结构的框架提供动机,而不是依赖固定的提示模块。
- 开发一个两阶段流程,使 LLMs 先发现任务特定的推理结构,然后遵循它们来解决实例。
- 证明自我发现的结构比传统提示方法更高效、且更具可解释性。
- 展示所发现结构在不同模型家族之间的可迁移性及其与人类推理模式的对齐。
提出的方法
- 定义以自然语言描述的原子推理模块的种子集合(例如,批判性思维、逐步推理)。
- Stage 1: 自我发现,包含三个行动——SELECT 有用的模块、ADAPT 将它们适配到任务、以及 IMPLEMENT 一个可操作的 JSON 风格结构。
- Stage 2: 在解码过程中通过遵循自我发现的结构来解决任务实例。
- 将所发现的结构以键值对(JSON)格式表示,以引导解码并实现可解释性。
- 将 Self-Discover 与 zero-shot Direct Prompting、Chain-of-Thought (CoT)、Plan-and-Solve (PS) 及像 CoT-Self-Consistency 这样的推理密集基线进行比较。

实验结果
研究问题
- RQ1自我发现的推理结构是否能在多样化基准测试(BBH、T4D、MATH)中提升 LLM 的推理能力?
- RQ2哪些任务类别从自我发现的结构中受益最大,并且它们在与替代提示方法的效率比较上如何?
- RQ3自我发现的结构是否能在不同模型家族之间以及在不同的 LLM 之间实现可迁移?
主要发现
- Self-Discover 在 PaLM 2-L 和 GPT-4 上的推理表现提升,覆盖 BBH、T4D 和 MATH,在某些设定下比 CoT 提升多达 32%。
- 在 23 个 BBH 任务上,Self-Discover 使 PaLM 2-L 相比 CoT 改进 7%,相比 PS 改进 6%,GPT-4 亦有类似提升。
- 在 T4D 任务上,Self-Discover 相对于基线对 PaLM 2-L 的绝对提升 ≥27% ,对 GPT-4 提升 32%,准确率分别为 69%(PaLM 2-L)和 85%(GPT-4)。
- 在 MATH 上,Self-Discover 显示适度提升(PaLM 2-L 1–7%;GPT-4 2–3%),错误模式表明大多数失败来自计算而非结构。
- Self-Discover 在推理调用次数上比像 CoT-Self-Consistency 或多数投票等推理密集的替代方法少 10–40 倍,同时保持或提升性能。
- 自我发现的结构在模型家族之间实现了迁移(PaLM 2-L → GPT-4;GPT-4 → Llama-2-70B),并显示出与人类推理模式的共同性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。