Skip to main content
QUICK REVIEW

[論文レビュー] Thinking Fast and Slow in Large Language Models

Thilo Hagendorff, Sarah Fabi|PubMed|Dec 10, 2022
Topic Modeling参考文献 6被引用数 38
ひとこと要約

本論文は、LLMsが低い能力(GPT-3)時に人間の直感的な誤りに似た挙動を示す一方、より高い能力(ChatGPT、GPT-4)では超合理的になり、認知心理学タスクで検証された認知反射テストと意味論的錯覚のようなタスクでこれらの誤りを回避することを明らかにしている。

ABSTRACT

We design a battery of semantic illusions and cognitive reflection tests, aimed to elicit intuitive yet erroneous responses. We administer these tasks, traditionally used to study reasoning and decision-making in humans, to OpenAI's generative pre-trained transformer model family. The results show that as the models expand in size and linguistic proficiency they increasingly display human-like intuitive system 1 thinking and associated cognitive errors. This pattern shifts notably with the introduction of ChatGPT models, which tend to respond correctly, avoiding the traps embedded in the tasks. Both ChatGPT-3.5 and 4 utilize the input-output context window to engage in chain-of-thought reasoning, reminiscent of how people use notepads to support their system 2 thinking. Yet, they remain accurate even when prevented from engaging in chain-of-thought reasoning, indicating that their system-1-like next-word generation processes are more accurate than those of older models. Our findings highlight the value of applying psychological methodologies to study large language models, as this can uncover previously undetected emergent characteristics.

研究の動機と目的

  • LLMsにおける出現特性を明らかにするため、心理学にインスパイアされた評価の活用を動機づける。
  • 認知心理学タスクを用いて、LLMsが人間に類した直感的誤りを示すかを評価する。
  • 認知能力の向上に伴うLLMs間の性能を比較する(GPT-3対ChatGPT/GPT-4)。
  • 高度な能力を持つモデルが認知バイアスを再現するのではなく回避するかを探る。

提案手法

  • 認知反射テスト(CRT)でLLMsを検証する。
  • 人間の直感的意思決定を研究するよう設計された意味論的錯覚でLLMsを検証する。
  • 出現特性を特定するため、異なるLLMs間で性能を比較する。
  • 人間の認知バイアスと合理性の文脈で結果を解釈する。
  • LLMsに適応した心理学的検査パラダイムに基づいて所見を位置づける。

実験結果

リサーチクエスチョン

  • RQ1LLMsはCRT様のタスクに回答する際に人間に似た直感的誤りを示すか?
  • RQ2高度な能力を持つLLMs(ChatGPT、GPT-4)は、初期モデル(例:GPT-3)よりも認知バイアスをより効果的に回避するか?
  • RQ3心理学的検査を通じてLLMsにどのような出現特性が明らかになるか?
  • RQ4意味論的錯覚はモデル世代を超えてLLMの意思決定にどのように影響するか?

主な発見

  • GPT-3レベルのモデルは、CRTおよび意味論的錯覚タスクで人間の直感的誤りに似た挙動を示す。
  • ChatGPTやGPT-4などの高度な能力を持つモデルは、これらの誤りを回避し、超合理的な振る舞いをとる傾向がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。