Skip to main content
QUICK REVIEW

[论文解读] Solving math word problems with process- and outcome-based feedback

Jonathan Uesato, Nate Kushman|arXiv (Cornell University)|Nov 25, 2022
Topic Modeling被引用 21
一句话总结

本文比较了基于过程的监督与基于结果的监督在带推理轨迹的数学文字题求解中的效果,结果显示基于奖励模型的强化学习和过程监督在 GSM8K 的轨迹与最终答案准确性上均有显著提升。

ABSTRACT

Recent work has shown that asking language models to generate reasoning steps improves performance on many reasoning tasks. When moving beyond prompting, this raises the question of how we should supervise such models: outcome-based approaches which supervise the final result, or process-based approaches which supervise the reasoning process itself? Differences between these approaches might naturally be expected not just in final-answer errors but also in reasoning errors, which can be difficult to detect and are problematic in many real-world domains such as education. We run the first comprehensive comparison between process- and outcome-based approaches trained on a natural language task, GSM8K. We find that pure outcome-based supervision produces similar final-answer error rates with less label supervision. However, for correct reasoning steps we find it necessary to use process-based supervision or supervision from learned reward models that emulate process-based feedback. In total, we improve the previous best results from 16.8% $ o$ 12.7% final-answer error and 14.0% $ o$ 3.4% reasoning error among final-answer-correct solutions.

研究动机与目标

  • 比较在 GSM8K 上为语言模型生成推理轨迹时的基于过程的监督与基于结果的监督。
  • 评估监督类型如何影响最终答案与推理轨迹质量。
  • 评估在何时奖励模型与强化学习能同时改善轨迹与最终答案的准确性。
  • 探讨用于逐步正确性标注的数据注释策略及对教育和安全的影响。

提出的方法

  • 使用大型语言模型为 GSM8K 问题生成逐步推理轨迹。
  • 使用对完整推理轨迹(基于过程)进行监督微调与对最终答案(基于结果)进行监督微调来训练模型。
  • 训练奖励模型对步骤进行评分(针对最终答案标签使用 ORM,对基于过程的标签使用 PRM),并结合专家迭代进行强化学习。
  • 基于 RM 的重排序或对最终答案正确性、ORM 或 PRM 信号进行强化学习。
  • 通过采样大量轨迹并用多数表决或基于 RM 的解码加权来解码。
  • 评估轨迹错误率和最终答案错误率,以及拒绝预测和OOD泛化。

实验结果

研究问题

  • RQ1仅对最终答案进行监督是否能实现与对推理轨迹进行监督相当的最终答案准确性?
  • RQ2在以结果为导向的信号进行训练时,基于奖励模型的方法是否能模拟过程性反馈以减少轨迹错误?
  • RQ3哪种训练方案(SFT、少量示例、RL)能在 GSM8K 上同时降低轨迹和最终答案错误?
  • RQ4在不同监督方案下,拒绝预测(有选择的预测)和OOD泛化如何影响性能?
  • RQ5ORM 和 PRM 奖励是否与过程性判断一致并在各设置中提升轨迹质量?

主要发现

  • 基于结果的监督在最终答案准确性方面与基于过程的监督相似,但标注成本更低。
  • 训练以模拟过程性反馈的奖励模型在用于RL或重排序时可提升轨迹准确性和最终答案准确性。
  • 最佳结果来自将监督学习与基于奖励模型的 RL 相结合,将轨迹错误率从 14.0% 降至 3.4%,将最终答案错误率从 16.8% 降至 12.7%。
  • 在约 30% 的问题上允许拒绝预测可将最终答案错误率降至 2.7%。
  • ORM 预测更倾向于与过程性标签一致,而非最终答案标签,表明奖励模型能够捕捉过程正确性。
  • 较低的轨迹错误需要过程性反馈或其模拟的奖励模型(例如 ORM-RL 或 PRM-RL 优于 Final-Answer RL)。
  • 选择性预测在最终答案错误方面产生较大降低,特别是对轨迹错误较低的模型(如带 PRM/ORM 的 SFT)。
  • 对 MATH 预代数(OOD)的泛化并不完美,但较先前的 GPT-3 结果有所改进;结果对基础 LM 与数据敏感。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。