[论文解读] Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners?
本文研究当前的大型语言模型在解决算术文字题时是否体现出类似人类的偏见,识别三个求解阶段的偏见,并在多种开源模型上进行指令微调的测试。
There is increasing interest in employing large language models (LLMs) as cognitive models. For such purposes, it is central to understand which properties of human cognition are well-modeled by LLMs, and which are not. In this work, we study the biases of LLMs in relation to those known in children when solving arithmetic word problems. Surveying the learning science literature, we posit that the problem-solving process can be split into three distinct steps: text comprehension, solution planning and solution execution. We construct tests for each one in order to understand whether current LLMs display the same cognitive biases as children in these steps. We generate a novel set of word problems for each of these tests, using a neuro-symbolic approach that enables fine-grained control over the problem features. We find evidence that LLMs, with and without instruction-tuning, exhibit human-like biases in both the text-comprehension and the solution-planning steps of the solving process, but not in the final step, in which the arithmetic expressions are executed to obtain the answer.
研究动机与目标
- 动机:将 LLM 作为人类学习的认知模型,并识别它们在算术文字题求解中的偏见与人类偏见的契合点或偏离点。
- 开发一个受控的问题生成流程,用以在三个求解阶段(文本理解、解题计划、解题执行)测试特定的偏见。
- 在多种提示规程下,对开源 LLM(LLaMA2、Mistral、Mixtral)在有无指令微调的情况下进行经验评估,以检测偏见模式。
- 通过条件平均处理效应(CATE)估计,量化有针对性的问题特征对模型性能的因果影响。
提出的方法
- 提出一个三步认知模型的求解过程(文本理解、解题计划、解题执行),并用 MathWorld 逻辑形式和符号表达证明序列对其进行操作化。
- 使用神经符号管道生成受控的算术文字题数据集,该管道固定题目结构、实例化心智模型、呈现模板化文本,并应用后编辑的纠错步骤。
- 使用成对的问题产生方法为所选特征创建 x 与 x' 变体,通过 CATE 实现对该特征对模型准确性影响的因果估计。
- 在直接提示和思维链提示下,评估四种模型配置的八种组合(LLaMA2 7B/13B、Mistral 7B、Mixtral 8x7B,含或不含指令微调),并使用零-shot 推断。
- 应用统计检验(配对 t 检验)以判断观测到的 CATE 是否显著不同于零,并在适用时报告 p 值。
实验结果
研究问题
- RQ1LLMs 在题目文本中是否表现出一致性偏差,即关系性关键词与所需运算一致时?
- RQ2在求解问题时,LLMs 是否在心智模型层面表现出迁移偏差与比较偏差?
- RQ3在符号表达式执行步骤中,LLMs 是否表现出进位效应,尤其是带有会引发进位的数字时?
- RQ4在不同提示规程(直接提示 vs. 思维链提示)下,指令微调模型与非微调模型在表现这些偏见方面有何差异?
主要发现
- LLMs 在题干文本层面表现出与人类类似的一致性偏差,对不一致的陈述的准确性低于一致的陈述。
- 迁移偏差与比较偏差在 LLMs 中存在,类似于儿童学习者,在多种模型和提示设置中。
- 进位效应在受测模型和提示方法中并未稳定观察到。
- 思维链提示可以放大某些偏见(如一致性偏见),但在取决于模型和任务设置的情况下提高总体性能。
- 相较于仅预训练的变体,指令微调模型在某些偏见上的 CATE 较大,这取决于提示规程。
- 在各模型和测试中,若干偏见达到统计显著性(关键比较的 p 值常小于 0.01)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。