Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding Artificial Theory of Mind: Perturbed Tasks and Reasoning in Large Language Models

Christian H. Nickel, Laura Schrewe|arXiv (Cornell University)|2026. 02. 25.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

이 논문은 perturb된 작업과 추론을 사용하여 대형 언어 모델에서 인공 의식 이론(ToM)을 연구하고, 손으로 작성된 데이터셋과 규칙 기반 하위 작업을 활용하며, ToM 유사 추론을 평가하는 한편 윤리적 고려사항과 이중 사용 위험에 대해 논의한다.

ABSTRACT

Theory of Mind (ToM) refers to an agent's ability to model the internal states of others. Contributing to the debate whether large language models (LLMs) exhibit genuine ToM capabilities, our study investigates their ToM robustness using perturbations on false-belief tasks and examines the potential of Chain-of-Thought prompting (CoT) to enhance performance and explain the LLM's decision. We introduce a handcrafted, richly annotated ToM dataset, including classic and perturbed false belief tasks, the corresponding spaces of valid reasoning chains for correct task completion, subsequent reasoning faithfulness, task solutions, and propose metrics to evaluate reasoning chain correctness and to what extent final answers are faithful to reasoning traces of the generated CoT. We show a steep drop in ToM capabilities under task perturbation for all evaluated LLMs, questioning the notion of any robust form of ToM being present. While CoT prompting improves the ToM performance overall in a faithful manner, it surprisingly degrades accuracy for some perturbation classes, indicating that selective application is necessary.

연구 동기 및 목표

  • 대형 언어 모델(LLMs)에서 인공 의식 이론(ToM)을 연구하는 동기를 제공한다.
  • ToM 추론을 탐구하기 위해 손으로 작성된 데이터셋과 규칙 기반 하위 작업을 개발하고 사용한다.
  • perturbations가 LLM의 ToM 유사 성능에 미치는 영향을 조사한다.
  • ToM 스타일 평가에서의 윤리적 고려사항, 위험 및 프라이버시 함의를 검토한다.

제안 방법

  • 윤리적이고 통제된 벤치마크로서 손으로 작성된 데이터셋을 생성한다(크라우드 소싱 노동 없음).
  • kosinskiTheoryMindMight2023를 기반으로 규칙 기반 템플릿 인스턴레이션을 통해 하위 작업을 생성한다.
  • LLM의 ToM 추론 강건성을 탐색하기 위해 변형된 Task variants를 설계한다.
  • 구축된 벤치마크를 이용한 LLM에 대한 계산 실험을 수행한다.
  • ToM 스타일 추론과 관련된 이중 사용 위험 및 프라이버시 고려사항을 논의한다.

실험 결과

연구 질문

  • RQ1대형 언어 모델은 perturb된 작업에서 인공 의식 이론(ToM) 추론을 어떻게 수행하는가?
  • RQ2작업 변형이 LLM의 ToM 유사 성능에 어떤 영향을 미치는가?
  • RQ3데이터셋 설계(손으로 작성된 템플릿 기반 하위 작업)가 ToM 능력 평가에 어떤 영향을 미치는가?
  • RQ4LLM의 ToM 스타일 평가에서 어떤 윤리적, 안전성 및 프라이버시 고려사항이 제기되는가?

주요 결과

  • 본 연구는 LLM에서 ToM 평가를 위한 손으로 작성된 벤치마크를 제공하고, 추론을 탐색하기 위해 사용된 작업 변형을 서술한다.
  • 이 연구는 이중 사용 위험, 편향 증폭 가능성, 그리고 ToM 스타일 추론 과제에서의 프라이버시 고려사항을 논의한다.
  • 데이터셋 구성 및 실험 설정은 윤리적이고 비크라우드소싱임으로 설명되며, 벤치마크 설계에 대한 선행 연구를 참조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.