Skip to main content
QUICK REVIEW

[論文レビュー] Does ChatGPT have Theory of Mind?

Bart Holterman, Kees van Deemter|arXiv (Cornell University)|May 23, 2023
Natural Language Processing Techniques被引用数 13
ひとこと要約

この論文は、人間の推論の誤謬に基づく有名な心の理論(ToM)タスクのセットに対してChatGPT-3とChatGPT-4を評価し、GPT-4は偶然よりもかなり高い性能を示し、GPT-3より顕著に高いが、しばしば誤った理由で正解に到達する。

ABSTRACT

Theory of Mind (ToM) is the ability to understand human thinking and decision-making, an ability that plays a crucial role in social interaction between people, including linguistic communication. This paper investigates to what extent recent Large Language Models in the ChatGPT tradition possess ToM. We posed six well-known problems that address biases in human reasoning and decision making to two versions of ChatGPT and we compared the results under a range of prompting strategies. While the results concerning ChatGPT-3 were somewhat inconclusive, ChatGPT-4 was shown to arrive at the correct answers more often than would be expected based on chance, although correct answers were often arrived at on the basis of false assumptions or invalid reasoning.

研究の動機と目的

  • 人間の精神状態と推論の偏り(Theory of Mind)を理解する能力を、Kahnemanの研究に基づく有名な誤謬問題を用いて評価する。
  • 複数の問題と prompting 戦略にわたってChatGPT-3とChatGPT-4のパフォーマンスを比較する。
  • 正解の回答が真の理解に基づくものか、それとも訓練データの模倣・パロディに依存しているのかを検討する。

提案手法

  • Kahneman (2011) から取り出した6つの確立されたToM/誤謬問題を、二つのChatGPTバージョン(GPT-3とGPT-4)に提示する。
  • 5つの詳細レベルにわたってプロンプトを変え、プロンプト感度と堅牢性をテストする。
  • 各モデルにつき各プロンプトを9回反復し、確率的性質を考慮する(n=9、モデルあたり総270問)。
  • 既知の正解と照合し、有意性を評価するために二項検定を実施する。
  • 推論の質を分析して、正解の根拠が妥当な正当化に支えられているかを評価する。

実験結果

リサーチクエスチョン

  • RQ1GPT-3とGPT-4はToM/誤謬問題に対して偶然レベルを超えて正解できるか?
  • RQ2プロンプトの詳細レベルはモデルの性能にどのように影響するか?
  • RQ3正解の回答には一貫性のある有効な推論が伴うのか、それともパロット・訓練データのパターンに基づくのか?
  • RQ4GPT-4はGPT-3に比べて理解の強い証拠を示すToM問題はどれか?
  • RQ5結果は大規模言語モデルのToMに関する先行研究と一致するか?

主な発見

  • GPT-3は270問中147問正解(p > 0.05; 有意でない)。
  • GPT-4は270問中224問正解(p < 0.0001; 有意)。
  • GPT-4はプロンプトと問題全体で高い正確さを示し、特にMental Shotgun、Linda問題、Anchoring効果、Planning Fallacyで顕著。
  • GPT-4は低詳細および高詳細プロンプトで中程度の詳細プロンプトよりも良い成績を示す場合があり、複雑なプロンプト感度を示唆。
  • モデル間で、正解が表層的パターンや訓練データに依存しているのではないかという懸念がある。
  • 著者は「パロタリング(parroting)」の可能性を caveat とし、頑健性を test するための将来のプロンプトの攪乱を提案している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。