Skip to main content
QUICK REVIEW

[论文解读] Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models

Christian H. Nickel, Laura Schrewe|arXiv (Cornell University)|Feb 25, 2026
Multimodal Machine Learning Applications被引用 0
一句话总结

本文研究在大型语言模型中通过扰动任务和推理来探究人工心智理论,使用手写数据集和基于规则的子任务,评估心智理论样推理,同时讨论伦理考量和双重用途风险。

ABSTRACT

Theory of Mind (ToM) refers to an agent's ability to model the internal states of others. Contributing to the debate whether large language models (LLMs) exhibit genuine ToM capabilities, our study investigates their ToM robustness using perturbations on false-belief tasks and examines the potential of Chain-of-Thought prompting (CoT) to enhance performance and explain the LLM's decision. We introduce a handcrafted, richly annotated ToM dataset, including classic and perturbed false belief tasks, the corresponding spaces of valid reasoning chains for correct task completion, subsequent reasoning faithfulness, task solutions, and propose metrics to evaluate reasoning chain correctness and to what extent final answers are faithful to reasoning traces of the generated CoT. We show a steep drop in ToM capabilities under task perturbation for all evaluated LLMs, questioning the notion of any robust form of ToM being present. While CoT prompting improves the ToM performance overall in a faithful manner, it surprisingly degrades accuracy for some perturbation classes, indicating that selective application is necessary.

研究动机与目标

  • 研究动机:在大型语言模型中研究人工心智理论(ToM)。
  • 开发并使用手写数据集和基于规则的子任务来探测ToM推理。
  • 研究扰动对LLMs中ToM样表现的影响。
  • 探讨ToM风格评估的伦理考量、风险与隐私影响。

提出的方法

  • 将手写数据集作为一个伦理且受控的基准(不使用众包劳动)。
  • 通过基于规则的模板实例化生成子任务(在Kosinski Theory Mind Might 2023基础上进行扩展)。
  • 设计扰动任务变体以探测LLMs中ToM推理的鲁棒性。
  • 利用构建的基准对LLMs进行计算实验。
  • 讨论与ToM风格推理相关的双重用途风险与隐私考量。

实验结果

研究问题

  • RQ1大型语言模型在扰动任务上执行人工心智理论推理的表现如何?
  • RQ2任务扰动对LLMs中ToM样表现的影响是什么?
  • RQ3数据集设计(手写、基于模板的子任务)如何影响对ToM能力的评估?
  • RQ4在对LLMs进行ToM风格评估时,出现哪些伦理、安全与隐私考量?

主要发现

  • 本研究为LLMs中的ToM评估提供了手写基准,并描述了用于探测推理的任务扰动。
  • 工作讨论了双重用途风险、潜在偏见放大以及ToM风格推理任务中的隐私考量。
  • 数据集构建与实验设置被描述为伦理且非众包,并对基准设计的以往工作有引用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。