[論文レビュー] Do large language models resemble humans in language use?
本研究は ChatGPT と Vicuna を 12 の古典的な言語実験でそれぞれ 1000 回の実行を行い、10 実験と 7 実験で人間らしいパターンを見出し、言語使用における収束と発散の両方を指摘する。
Large language models (LLMs) such as ChatGPT and Vicuna have shown remarkable capacities in comprehending and producing language. However, their internal workings remain a black box, and it is unclear whether LLMs and chatbots can develop humanlike characteristics in language use. Cognitive scientists have devised many experiments that probe, and have made great progress in explaining, how people comprehend and produce language. We subjected ChatGPT and Vicuna to 12 of these experiments ranging from sounds to dialogue, preregistered and with 1000 runs (i.e., iterations) per experiment. ChatGPT and Vicuna replicated the human pattern of language use in 10 and 7 out of the 12 experiments, respectively. The models associated unfamiliar words with different meanings depending on their forms, continued to access recently encountered meanings of ambiguous words, reused recent sentence structures, attributed causality as a function of verb semantics, and accessed different meanings and retrieved different words depending on an interlocutor's identity. In addition, ChatGPT, but not Vicuna, nonliterally interpreted implausible sentences that were likely to have been corrupted by noise, drew reasonable inferences, and overlooked semantic fallacies in a sentence. Finally, unlike humans, neither model preferred using shorter words to convey less informative content, nor did they use context to resolve syntactic ambiguities. We discuss how these convergences and divergences may result from the transformer architecture. Overall, these experiments demonstrate that LLMs such as ChatGPT (and Vicuna to a lesser extent) are humanlike in many aspects of human language processing.
研究の動機と目的
- 大規模言語モデルが幅広い言語課題にわたって人間のような言語処理パターンを示すかを評価する。
- 解釈、生成、談話における人間との類似点と相違点を評価する。
- トランスフォーマーに基づくアーキテクチャが、観察される言語使用の収束と発散をどのように説明しうるかを調査する。
提案手法
- 音声から対話までの 12 の言語実験を事前登録した。
- 各実験を 1000 回の反復で実行し、頑健な統計を得る。
- 実験を通じてモデルの応答を人間のパターンと比較する。
- 未知語の意味拡張、最近の語義アクセス、文構造の再利用、動詞意味論による因果付け、話者同定効果といった具体的現象を評価する。
- ノイズで破損した入力における非字面解釈、推論、意味的誤謬を分析する(ChatGPT について)。
- 観察されたパターンの根底にある可能性のあるトランスフォーマーアーキテクチャを議論する。
実験結果
リサーチクエスチョン
- RQ1LLM は幅広い心理言語学的タスクにおいて、人間の言語使用パターンを再現するか。
- RQ2LLM は人間の言語処理のどの側面に類似し、どの点で逸脱するか、そしてこれらの類似点・相違はなぜ生じる可能性があるか。
- RQ3モデルアーキテクチャ(トランスフォーマー)は、人間と比較して言語使用の収束または発散にどのように寄与するか。
- RQ4文法的曖昧さを解決するために文脈を利用できない、あるいは情報量のために短い語を長い語より好むといったタスクはあるか。
主な発見
- ChatGPT は 12 実験のうち 10 実験で人間の言語使用パターンを再現した。
- Vicuna は 12 実験のうち 7 実験で人間の言語使用パターンを再現した。
- 両モデルは未知語を形に依存する意味と関連づけた。
- 両モデルはあいまいな語の最近出会った意味にアクセスし続けた。
- 両モデルは最近の文構造を再利用し、因果性を動詞の意味論の機能として帰属させた。
- 対話者の身份に応じて異なる意味にアクセスし、異なる語を取り出した。
- ノイズで損なわれた信じがたい文を非字面に解釈し、合理的な推論を導いたのは ChatGPT であり、Vicuna はそうではなかった。
- ChatGPT は意味論的誤謬を認識し、文の中でそれを見逃すこともできた。
- どちらのモデルも、情報量が少なくなるように短い語を優先せず、文法的曖昧さを解決するために文脈を用いなかった。
- 収束と発散はトランスフォーマーアーキテクチャと訓練データを反映している可能性がある。
- 全体として、LLM は言語処理において人間らしい側面を示す一方、いくつかの人間らしい限界と差異もある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。