[论文解读] Program Induction by Rationale Generation : Learning to Solve and Explain Algebraic Word Problems
本文提出了一种程序归纳框架,通过生成自然语言推理过程——即包含数学表达式的逐步解释——来解决代数应用题。通过将推理过程建模为引导程序搜索的隐变量,该方法在推理流畅性和答案准确性方面均取得提升,在包含100,000个样本的新数据集上,性能显著优于基线神经模型。
Solving algebraic word problems requires executing a series of arithmetic operations---a program---to obtain a final answer. However, since programs can be arbitrarily complicated, inducing them directly from question-answer pairs is a formidable challenge. To make this task more feasible, we solve these problems by generating answer rationales, sequences of natural language and human-readable mathematical expressions that derive the final answer through a series of small steps. Although rationales do not explicitly specify programs, they provide a scaffolding for their structure via intermediate milestones. To evaluate our approach, we have created a new 100,000-sample dataset of questions, answers and rationales. Experimental results show that indirect supervision of program learning via answer rationales is a promising strategy for inducing arithmetic programs.
研究动机与目标
- 解决从代数应用题的问答对中归纳复杂算术程序的挑战。
- 通过生成结构化解决方案过程的自然语言推理,提升模型可解释性与学习效率。
- 构建一个大规模、高质量的100,000道代数应用题数据集,包含标注的推理过程与正确答案。
- 开发一种序列到序列模型,联合生成推理过程并推断解决题目所依赖的底层程序。
- 证明通过推理过程进行间接监督,相比直接预测答案,能实现更优的程序归纳效果。
提出的方法
- 模型采用带有注意力机制和复制机制的序列到序列架构,生成包含自然语言与符号表达式的推理过程。
- 采用启发式搜索策略,探索能生成观察到的推理过程并得出正确答案的合理程序。
- 将推理过程视为隐变量,引导正确算术程序的搜索,提供中间里程碑。
- 模型引入输入复制与输出复制机制,以提升推理过程中变量与数值的生成效果。
- 通过搜索可能的操作序列来推断程序,这些操作序列在执行后能产生推理过程与最终答案。
- 框架联合优化推理流畅性(以BLEU衡量)与答案准确性。
实验结果
研究问题
- RQ1生成中间推理过程是否能提升代数应用题算术程序的归纳能力?
- RQ2与直接预测答案相比,将推理过程作为隐式引导是否能有效缩小程序归纳的搜索空间?
- RQ3神经序列模型能否在无显式程序监督的情况下,联合生成流畅的推理过程并推断出正确的程序?
- RQ4与端到端答案预测相比,基于推理引导的程序归纳在准确率与可解释性方面表现如何?
- RQ5复制机制与启发式搜索在多大程度上提升了模型生成正确推理与解法的能力?
主要发现
- 所提出的模型显著优于当前最先进的序列到序列模型,在代数应用题求解任务上的准确率翻倍。
- 所有基线模型的准确率接近随机水平(约20%),表明在缺乏推理监督的情况下,直接预测答案效果极差。
- 该模型在所有变体中取得最高的BLEU分数,证明其在推理生成的流畅性与正确性方面表现更优。
- 引入输出复制机制可提升BLEU分数,但对困惑度影响甚微,因为被复制的标记也可通过softmax或输入复制生成。
- 模型能以一到两步成功解决简单问题,例如“120片披萨来自每块10片的蛋糕”,生成的推理如“120 / 10 = 12块。答案是C”。
- 启发式搜索策略至关重要——若不建模推理过程,搜索空间将过于宽泛,难以实现有效的程序归纳。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。