[论文解读] Llemma: An Open Language Model For Mathematics
Llemma 是一个面向开放域的数学专用语言模型(7B 和 34B),通过对 Code Llama 在 Proof-Pile-2 上继续预训练获得,在 MATH 上达到开源基础模型的最先进性能,并能够在无需微调的情况下使用工具和进行形式定理证明。
We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
研究动机与目标
- 动机将 LMs 迁移到数学领域以利用专门的先验知识和推理。
- 通过在大量文本、代码和证明的数学丰富混合数据上继续预训练,发展一个数学专用的基础模型。
- 在标准数学推理基准和工具辅助任务上评估 Llemma,以建立开源基础线。
- 公开访问模型、训练数据和代码,以促进未来在数学推理方面的研究。
提出的方法
- 在 Proof-Pile-2 上继续对 Code Llama 进行预训练,以创建 Llemma-7B 和 Llemma-34B。
- 将 Proof-Pile-2 构建为一个包含数学论文、网络数学数据和包括 AlgebraicStack 数据集在内的数学代码的 55B-token 混合数据集。
- 使用 bfloat16 在 256 个 A100 GPU 上进行张量并行和 ZeRO 优化,训练 7B 模型至 200B token,34B 模型至 50B token。
- 使用标准自回归语言模型目标和混合精度训练,结合 Flash Attention 2 以提高效率。
- 在 MATH、GSM8k、OCWCourses、MMLU-STEM 和 SAT 上使用少-shot chain-of-thought 提示进行评估,并评估工具使用和形式数学能力。
- 公开发布 7B 和 34B 模型,以及 Proof-Pile-2 语料、代码和 AlgebraicStack 数据集。
实验结果
研究问题
- RQ1在数学聚焦数据混合继续预训练是否能提升开源基础语言模型在数学推理上的表现?
- RQ2在开源数学模型中包含代码数据和形式数学数据对性能和记忆能力有何影响?
- RQ3在没有任务特定微调的情况下,开放基础模型在多少程度上能够执行工具辅助的数学运算并与形式证明系统交互?
- RQ4数据混合(arXiv、网络、代码)对数学基准和问题求解的性能有何影响?
- RQ5对于开放数学模型,记忆风险和数据重叠的影响是什么?
主要发现
- Llemma-34B 在 GSM8k 上比 Code Llama 高出 20 个百分点,在 MATH 上高出 13 个百分点。
- Llemma-7B 在所报告的基准上超过了专有的 Minerva 模型。
- Llemma 展现出在不进行额外微调的情况下使用计算工具(Python 解释器和形式定理证明器)的能力。
- Llemma 在 MATH 基准上实现了开源权重模型的最先进结果。
- 开放访问版本包括 7B 和 34B 基础模型、Proof-Pile-2、AlgebraicStack 以及复制代码。
- 在 Proof-Pile-2 上继续预训练可改善多项基准的少样本数学问题求解。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。