[論文レビュー] Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina
本論文は、進んだLLMが単純な11-20マネーリクエストゲームにおいて人間の分布を大部分再現できないことを実証し、モデルやプロンプト間で不安定性を示し、慎重な文書化と評価なしにLLMを人間の代替として使用することを警告している。
Recent studies suggest large language models (LLMs) can exhibit human-like reasoning, aligning with human behavior in economic experiments, surveys, and political discourse. This has led many to propose that LLMs can be used as surrogates or simulations for humans in social science research. However, LLMs differ fundamentally from humans, relying on probabilistic patterns, absent the embodied experiences or survival objectives that shape human cognition. We assess the reasoning depth of LLMs using the 11-20 money request game. Nearly all advanced approaches fail to replicate human behavior distributions across many models. Causes of failure are diverse and unpredictable, relating to input language, roles, and safeguarding. These results advise caution when using LLMs to study human behavior or as surrogates or simulations.
研究の動機と目的
- LLMsが社会科学実験における人間行動の信頼できる代替となり得るかを評価する。
- 設計選択(プロンプト、役割、言語、記憶)がLLMの推論深さと行動にどう影響するかを検討する。
- 再現性と人間らしい行動への一般化を妨げるLLMの失敗モードと限界を特定する。
- 厳格な文書化を伴う代替としてLLMsを活用する際の研究者向けガイドラインを提供する。
提案手法
- 8つの人気LLM(GPT-4, GPT-3.5, Claude3-Opus, Claude3-Sonnet, Llama3-70b, Llama3-8b, Llama2-13b, Llama2-7b)を対象とし、11-20 Money Request Gameで各モデルにつき1,000のクリーンセッションを評価する。
- LLMの応答分布を人間の分布およびArad and Rubinstein (2012)のナッシュ均衡予測と比較する。
- OODプロンプトと人間の例を用いたプロンプティング、リトリーバル拡張生成(RAG)、およびファインチューニングの効果を比較検証する。
- インライン例、ゼロショットプロンプト、役割割り当て、複数言語などのプロンプトの多様性を調査し、プロンプトの脆弱性を評価する。
- LLMに対してインタビューを行い、選択理由の自己申告的根拠を収集する。
- 失敗モードを分析し、LLMsを人間の代替として用いる場合の含意を議論する。
- 3つの戦略(プロンプトエンジニアリング、ファインチューニング、RAG)を取り入れ、それらが人間らしい行動を生み出すかを評価する。
実験結果
リサーチクエスチョン
- RQ1モデルサイズやファミリを超えて、LLMsは11-20 Money Request Gameで人間らしい分布を生み出すか?
- RQ2入力設計の choices(役割、言語、プロンプト)は、LLMの推論深さと人間の行動との整合性にどう影響するか?
- RQ3プロンプティング、RAG、あるいはファインチューニングにより、単純な経済ゲームで人間の意思決定分布を再現できるか?
- RQ4信頼できる人間の代替として機能するのを妨げる主要な失敗モードと障壁は何か?
- RQ5再現性と透明性を保証するために、LLMsを代替として使用する際に研究者が従うべきガイドラインは何か?
主な発見
- GPT-3.5を除くほとんどの高度なLLMは20または19を選好し、11-20ゲームにおける人間の深さの典型的な2手前の推論レベルを示している。
- LLMの応答分布は、人間の分布から統計的に有意に乖離する(p < 0.001、Jensen-Shannon距離)ことが多い。
- 応答パターンはモデル間で顕著に異なり、より大きなモデルが必ずしも人間らしくなるわけではない。いくつかのモデルは人間より深さが低い、またはセッション間変動が大きい。
- 人間らしい行動を引き出すOODアプローチはほとんど失敗する。GPT-4oのファインチューニングのみが、人間と統計的に区別不能な分布を生み出した。
- プロンプトやRAGを介して明示的に人間の例を提供すると類似性はわずかに高まるが、人間の分布を完全には再現しない。GPT-4oのファインチューニングはより近い整合性を達成する。
- プロンプトの枠組み(役割、言語)と例の提供は、LLMの挙動に不安定性とプロンプトの脆さを引き起こす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。