QUICK REVIEW

[论文解读] Training Verifiers to Solve Math Word Problems

Karl Cobbe, Vineet Kosaraju|arXiv (Cornell University)|Oct 27, 2021

Natural Language Processing Techniques参考文献 28被引用 23

一句话总结

本文提出了 GSM8K，一个包含 8.5K 道小学数学应用题的多样化数据集，并提出训练验证模型以评估模型生成的解题过程。通过在测试时采样多个候选解题方案，并利用验证模型对它们进行排序，最终选择得分最高的方案，性能显著提升——相当于模型参数量增加 30 倍的效果——表明验证机制在数据规模增加时比微调更具扩展性。

ABSTRACT

State-of-the-art language models can match human performance on many tasks, but they still struggle to robustly perform multi-step mathematical reasoning. To diagnose the failures of current models and support research, we introduce GSM8K, a dataset of 8.5K high quality linguistically diverse grade school math word problems. We find that even the largest transformer models fail to achieve high test performance, despite the conceptual simplicity of this problem distribution. To increase performance, we propose training verifiers to judge the correctness of model completions. At test time, we generate many candidate solutions and select the one ranked highest by the verifier. We demonstrate that verification significantly improves performance on GSM8K, and we provide strong empirical evidence that verification scales more effectively with increased data than a finetuning baseline.

研究动机与目标

诊断大语言模型在多步数学推理任务中的失败原因。
开发一种可扩展的方法，提升推理性能，而无需单纯依赖模型规模的增加。
构建一个高质量、语言形式多样的数据集，用于评估语言模型的数学推理能力。
证明基于验证的推理优于标准微调，并且在数据规模增加时扩展性更强。
研究正则化技术（如 Dropout）对验证和微调性能的影响。

提出的方法

作者提出了 GSM8K，一个经过筛选的 8.5K 道小学数学应用题数据集，包含自然语言形式的解题过程，其中 7.5K 个用于训练，1K 个用于测试。
他们训练验证模型以评估模型生成解题过程的正确性，采用两阶段流程：先生成多个候选解题方案，再通过验证模型对它们进行排序。
在测试阶段，选择得分最高的解题方案，进一步通过在得分最高的方案中进行多数投票来提升性能。
验证模型以方案级或标记级模型的形式进行训练，后者对过拟合更具鲁棒性。
使用 Dropout 作为正则化手段，尤其对方案级验证模型效果显著，并在预训练和微调阶段均应用，以减少分布偏移。
该方法通过在测试时利用计算资源生成多个补全结果，并利用验证模型对候选解进行排序，实现对候选解的搜索。

实验结果

研究问题

RQ1与标准微调相比，基于验证的推理是否能显著提升数学应用题的求解性能？
RQ2与微调相比，验证性能在训练数据增加时如何扩展？
RQ3通过 Dropout 实现的正则化是否能提升微调模型和验证模型的泛化能力？
RQ4选择方案级验证模型还是标记级验证模型如何影响模型的鲁棒性和性能？
RQ5在测试时推理中，生成补全数量与用于投票的最高分方案数量之间，最优权衡是什么？

主要发现

使用 6B 参数的验证模型，其性能优于 175B 参数的微调模型在 GSM8K 上的表现，性能提升相当于模型参数量增加 30 倍的效果。
验证机制在数据规模增加时比微调更具扩展性，随着训练数据增加，性能增益持续提升。
Dropout 显著提升了微调和验证的性能，尤其在方案级验证模型中提升最为明显。
在最高分方案中采用多数投票机制可进一步提升性能，最优投票阈值取决于生成的补全数量。
性能在每道题生成约 400 个补全时达到峰值，超过此数量后，对抗性解题方案开始导致性能下降。
标记级验证模型在本质上比方案级验证模型对过拟合更具鲁棒性，此时 Dropout 仅带来微小的性能增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。