QUICK REVIEW

[论文解读] A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models

Alessandro Stolfo, Zhijing Jin|arXiv (Cornell University)|Oct 21, 2022

Topic Modeling被引用 2

一句话总结

本文提出一种因果推断框架，通过do-干预和因果中介分析，隔离输入因素（如数值操作数、运算符和文本表面形式）的影响，以量化语言模型在数学推理中的鲁棒性。主要发现是，与其它GPT变体相比，GPT-3 Davinci（175B）模型在鲁棒性和敏感性方面均表现出显著提升，表明其推理保真度实现了质的飞跃。

ABSTRACT

We have recently witnessed a number of impressive results on hard mathematical reasoning problems with language models. At the same time, the robustness of these models has also been called into question; recent works have shown that models can rely on shallow patterns in the problem description when generating a solution. Building on the idea of behavioral testing, we propose a novel framework, which pins down the causal effect of various factors in the input, e.g., the surface form of the problem text, the operands, and math operators on the output solution. By grounding the behavioral analysis in a causal graph describing an intuitive reasoning process, we study the behavior of language models in terms of robustness and sensitivity to direct interventions in the input space. We apply our framework on a test bed of math word problems. Our analysis shows that robustness does not appear to continuously improve as a function of size, but the GPT-3 Davinci models (175B) achieve a dramatic improvement in both robustness and sensitivity compared to all other GPT variants.

研究动机与目标

为解决在数学推理任务中缺乏一种系统、全面的评估语言模型鲁棒性的原则性框架的问题。
探究大语言模型是否真正学习了数学推理，还是依赖于问题表述中的表面模式。
分离输入因素（如数值操作数、运算符和文本表述）对模型预测的因果影响。
提供一种形式化且基于行为的测试方法，利用因果推断在数学应用题中评估模型鲁棒性。
评估模型规模和指令微调对数学推理中鲁棒性和敏感性的影响。

提出的方法

作者构建了一个模拟人类推理的因果图，节点代表输入因素（操作数N、运算符O、文本表面形式S、真实结果G）和模型预测R。
应用do-干预以操纵特定输入因素（如改变N1、N2），同时保持真实结果G不变，从而估计其对预测的直接因果效应。
采用因果中介分析将输入因素的总效应分解为直接和间接路径，从而将虚假相关性与真实推理区分开来。
该框架应用于13种GPT模型，包括指令微调和非指令微调的变体，以测量不同模型规模下的鲁棒性和敏感性。
该方法使用概率预测分布P(R)来量化在受控干预下模型行为的变化。
该方法在数学应用题基准上进行了验证，干预设计在保持语义意义的同时改变了特定输入组件。

实验结果

研究问题

RQ1语言模型在多大程度上依赖于数学应用题中的表面模式，而非真正的算术推理？
RQ2不同输入因素（如数值操作数、运算符和文本表述）如何因果地影响模型预测？
RQ3模型规模或指令微调是否带来鲁棒性的连续提升，还是存在质的临界点效应？
RQ4与人类推理的因果机制相比（以真实结果G为衡量标准），模型预测的因果机制有何不同？
RQ5因果推断技术能否系统性地应用于量化和基准测试大语言模型在数学推理中的行为鲁棒性？

主要发现

GPT-3 Davinci（175B）模型相较于所有其他GPT变体，在鲁棒性和敏感性方面均表现出显著提升，表明其推理保真度实现了质的飞跃。
在非指令微调模型中，模型规模越大，对真实结果变化的敏感性越高，但鲁棒性未必随之提升。
指令微调的GPT-3模型表现出显著增强的鲁棒性和敏感性，表明在指令数据上微调可改善因果推理行为。
指令微调模型的鲁棒性随问题复杂度增加而下降，表明泛化能力与复杂度处理之间存在权衡。
LLaMA系列模型表明，指令微调（如Stanford Alpaca）可提升鲁棒性，但对整体性能提升不显著，表明在此设置下存在收益递减。
该框架成功识别出虚假相关性（如表面形式S与预测R之间的相关性），揭示模型可能因文本表述而被误导，而与数值内容无关。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。