QUICK REVIEW

[论文解读] Solving Quantitative Reasoning Problems with Language Models

Aitor Lewkowycz, Anders Andreassen|arXiv (Cornell University)|Jun 29, 2022

Topic Modeling被引用 281

一句话总结

Minerva 是一个在通用和技术数据上训练的大型语言模型，能够在没有外部工具的情况下进行定量推理，在若干基准上达到最先进的结果，并解决超过200道本科风格题目。

ABSTRACT

Language models have achieved remarkable performance on a wide range of tasks that require natural language understanding. Nevertheless, state-of-the-art models have generally struggled with tasks that require quantitative reasoning, such as solving mathematics, science, and engineering problems at the college level. To help close this gap, we introduce Minerva, a large language model pretrained on general natural language data and further trained on technical content. The model achieves state-of-the-art performance on technical benchmarks without the use of external tools. We also evaluate our model on over two hundred undergraduate-level problems in physics, biology, chemistry, economics, and other sciences that require quantitative reasoning, and find that the model can correctly answer nearly a third of them.

研究动机与目标

弥合语言模型在定量推理能力方面的差距，通过在高质量数学内容上进行训练。
创建一个大型、以数学为重点的训练语料库，将自然语言与形式化数学符号相结合。
展示在少样本学习下的强性能以及无需外部计算器或工具的自包含推理。
在多样化数据集（MATH、GSM8k、MMLU-STEM）和本科 OCW 问题上进行评估，以评估鲁棒性和泛化能力。

提出的方法

以 PaLM 预训练模型（8B、62B、540B）为起点。
在包含数学网页和 arXiv 内容的数学数据集上进行微调，以保留数学符号。
自回归训练，生成带有 LaTeX 和自然语言解释的自包含解答。
主要通过少样本提示和多数投票（maj1@k）在多次样本上进行评估，不使用外部工具。
使用 SymPy 解析并验证最终的数值/符号答案的正确性。
整理超过 200 道 MIT OCW 问题，以将评估扩展到本科生科学问题，超越纯数学。

实验结果

研究问题

RQ1一个大型语言模型是否能够在没有外部工具的情况下在定量推理任务中达到高准确性？
RQ2模型大小与数据质量如何影响数学、科学和工程问题的表现？
RQ3在多样本上通过多数投票是否比单样本贪心解码更能提升定量推理的准确性？
RQ4在解决定量问题时，模型是在记忆还是在真正的推理方面受到影响？

主要发现

Minerva 在 MATH、GSM8k 和 MMLU 的 STEM 子集上，在极少样本设置下无需外部工具，达到最先进的结果。
GSM8k 的 maj1@k 采样在 540B 模型上达到 78.5%。
MATH 结果显示随着模型增大和多数投票获得显著提升，例如 Maj1@k 相较于非集成输出有实质性改进。
OCWCourses（本科问题）显示在更大 Minerva 模型和多数投票下有可观提升。
波兰国家考试结果显示 62B 和 540B 分别达到 57% 和 65%，表明在标准基准之外的迁移性。
分析表明该模型的成功不仅仅是记忆所致，对问题措辞和问题修改具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。