[论文解读] MathQA: Towards Interpretable Math Word Problem Solving with Operation-Based Formalisms
介绍了 MathQA,这是一个具有对数学应用文字题目完全指定的操作程序的大规模数据集,以及一个使用领域感知分类将题目映射到可执行操作序列的神经序列到程序模型。该方法在 MathQA 和 AQuA 数据集上优于基线,但未达到人类水平表现。
We introduce a large-scale dataset of math word problems and an interpretable neural math problem solver that learns to map problems to operation programs. Due to annotation challenges, current datasets in this domain have been either relatively small in scale or did not offer precise operational annotations over diverse problem types. We introduce a new representation language to model precise operation programs corresponding to each math problem that aim to improve both the performance and the interpretability of the learned models. Using this representation language, our new dataset, MathQA, significantly enhances the AQuA dataset with fully-specified operational programs. We additionally introduce a neural sequence-to-program model enhanced with automatic problem categorization. Our experiments show improvements over competitive baselines in our MathQA as well as the AQuA dataset. The results are still significantly lower than human performance indicating that the dataset poses new challenges for future research. Our dataset is available at: https://math-qa.github.io/math-QA/
研究动机与目标
- 提供一个大规模、密集注释的数学文字题数据集,包含精确的操作程序。
- 提出一种新的基于操作的表示语言,用于求解数学文字题,以提升可解释性和性能。
- 开发一个具有领域分类的神经序列到程序模型,将题目映射到操作程序。
提出的方法
- 定义一个具有58个操作及参数的正式操作-程序表示语言,用于建模求解步骤。
- 使用动态注释平台对题目进行众包注释,并配对对齐的操作程序。
- 将题到程序的映射视为神经机器翻译,并训练一个编码器-解码器模型,从题干文本生成操作程序。
- 通过领域感知分类扩展模型,使解码在题目领域上进行条件化。
- 顺序执行解码得到的操作程序以获得解,并通过束搜索与多项选择题选项对齐。
- 在 MathQA 和 AQuA 数据集上进行评估,与基线和现有最先进方法进行比较。
实验结果
研究问题
- RQ1基于操作的形式化方法是否可以提高数学文字题求解的可解释性和性能?
- RQ2将领域感知分类纳入序列到程序的模型是否能提升在多样化数学题领域上的求解准确性?
- RQ3与如 AQuA 等现有数据集相比,所提 MathQA 数据集与表示对神经求解器性能有何影响?
主要发现
| 模型 | MathQA | AQuA |
|---|---|---|
| Random | 20.0 | 20.0 |
| AQuA Model | - | 36.4 |
| Seq2prog | 51.9 | 33.0 |
| Seq2prog + cat | 54.2 | 37.9 |
- 带分类的 Seq2prog 模型在 MathQA 与 AQuA 的测试集上均优于基础的 Seq2prog 模型。
- 对于 Seq2prog,MathQA 和 AQuA 的测试正确率分别为 51.9 和 33.0;Seq2prog + cat 分别达到 54.2 和 37.9。
- 在 MathQA 上的模型表现仍低于人类水平,表明该数据集对未来研究提出了新的挑战。
- 众包获得的操作程序使推理步骤更加精准、可解释,并与题目上下文对齐。
- 具备领域感知的模型带来温和但稳定的准确率提升,在某一子集的评注中,人工标注者与模型分类的一致性达到 84%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。