Skip to main content
QUICK REVIEW

[论文解读] STaR: Bootstrapping Reasoning With Reasoning

Eric Zelikman, Yuhuai Wu|arXiv (Cornell University)|Mar 28, 2022
Topic Modeling被引用 114
一句话总结

STaR 通过从少量示例中迭代生成和改进推理数据集,用推理化来提升对自身生成的推理的学习,从而自举推理。它通过在带有推理的增强数据上进行微调,在算术、常识问答和小学数学方面取得显著提升。

ABSTRACT

Generating step-by-step "chain-of-thought" rationales improves language model performance on complex reasoning tasks like mathematics or commonsense question-answering. However, inducing language model rationale generation currently requires either constructing massive rationale datasets or sacrificing accuracy by using only few-shot inference. We propose a technique to iteratively leverage a small number of rationale examples and a large dataset without rationales, to bootstrap the ability to perform successively more complex reasoning. This technique, the "Self-Taught Reasoner" (STaR), relies on a simple loop: generate rationales to answer many questions, prompted with a few rationale examples; if the generated answers are wrong, try again to generate a rationale given the correct answer; fine-tune on all the rationales that ultimately yielded correct answers; repeat. We show that STaR significantly improves performance on multiple datasets compared to a model fine-tuned to directly predict final answers, and performs comparably to fine-tuning a 30$ imes$ larger state-of-the-art language model on CommensenseQA. Thus, STaR lets a model improve itself by learning from its own generated reasoning.

研究动机与目标

  • 通过从少量推理示例中自举,激励并使语言模型能够提升推理能力。
  • 开发一个可扩展的循环,生成、筛选并在推理理由上微调,以产出更好的后续推理和答案。
  • 引入推理化以应对失败,通过训练模型在错误尝试后为正确答案提供理由。
  • 在符号与自然语言推理任务上评估 STaR,以展示其广泛适用性。

提出的方法

  • 使用一个预训练的大语言模型和一组小型的带推理能力的提示集合,为大数据集生成推理理由和答案。
  • 筛选生成的推理理由,仅保留能得到正确答案的推理,并在此数据上进行微调。
  • 迭代重复推理理由的生成与微调,以同时改善推理过程和最终答案。
  • 引入推理化:对于模型错误解决的问题,提供地面真相答案作为提示,并在该提示生成的推理理由上进行训练,以丰富训练数据。
  • 可选地,在初始正确解与推理化后的正确解上都进行训练,以放大学习信号。

实验结果

研究问题

  • RQ1大型语言模型是否能通过从少量初始集合迭代生成并在推理理由上进行微调来改善自身推理?
  • RQ2添加推理化(在正确答案条件下的推理)是否会加速并改进推理的自举?
  • RQ3与直接答案微调和少样本提示相比,STaR 在算术、常识推理和小学数学方面的表现如何?
  • RQ4推理化对跨任务的模型性能和推理理由质量的影响是什么?

主要发现

  • STaR 在各任务上显著优于直接微调以直接预测最终答案的模型。
  • 在 CommonsenseQA 上,带推理化的 STaR 达到 72.5% 准确率,而不带推理化为 68.8%,在同一场景下,相同基线的 30x 更大的 GPT-3 模型达到 73.0%。
  • 在 GSM8K 上,STaR 在带推理化时达到 10.7% 测试准确率(无推理化为 10.1%),训练数据量相对较小。
  • 在算术任务中,STaR 在 16 次迭代后达到 89.5% 的整体准确率,显著高于基线 76.3%。
  • 推理化有助于让模型接触到更难的问题,并且可以增加数据集规模,从而提升对新问题的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。