[論文レビュー] Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies
本論文は、テューリング実験(TEs)を導入し、大規模言語モデルが複数の人間参加者をどれだけうまく模倣できるかを評価し、経済学、言語学、社会心理学、集合知の古典的な人間実験の発見を再現する方法を示し、忠実な模倣と歪みの双方を明らかにする。
We introduce a new type of test, called a Turing Experiment (TE), for evaluating to what extent a given language model, such as GPT models, can simulate different aspects of human behavior. A TE can also reveal consistent distortions in a language model's simulation of a specific human behavior. Unlike the Turing Test, which involves simulating a single arbitrary individual, a TE requires simulating a representative sample of participants in human subject research. We carry out TEs that attempt to replicate well-established findings from prior studies. We design a methodology for simulating TEs and illustrate its use to compare how well different language models are able to reproduce classic economic, psycholinguistic, and social psychology experiments: Ultimatum Game, Garden Path Sentences, Milgram Shock Experiment, and Wisdom of Crowds. In the first three TEs, the existing findings were replicated using recent models, while the last TE reveals a "hyper-accuracy distortion" present in some language models (including ChatGPT and GPT-4), which could affect downstream applications in education and the arts.
研究の動機と目的
- TEを、制御された研究における複数の人間参加者のゼロショットシミュレーションとして定義する。
- プロンプトと生成された記録を用いて言語モデル上でTEを実行する方法論を示す。
- 経済学、心理言語学、社会心理学のよく知られた発見を再現し、LMの模倣における歪みを特定する。
- モデルサイズが忠実度に与える影響を評価し、異なる領域での体系的な歪みを明らかにする。)
提案手法
- 慎重に構築されたプロンプトに対してLMがランダムな補完を生成し、参加者または複数の参加者をシミュレートするゼロショットTEフレームワークを導入する。
- 名前ベースおよび人口統計入力(敬称、姓、性別マーカー)を使用して多様な模擬被験者を具体化し、実験の記録のトランスクリプト風の再構成を行う。
- 補完の『妥当性率』を最大化するようプロンプトを設計・検証し、仮説設計と結果テストを分離してpハックを避ける。
- 四つの古典的研究(Ultimatum Game、Garden Path文、Milgramショック実験、Wisdom of Crowds)にTEフレームワークを適用し、複数のGPTベースモデルと新規の対照条件変種を用いる。
- LM由来のアウトカムを確立された人間の結果と比較し、忠実度を評価し、歪みを特定する。高度な正確性歪みを含む場合がある。
- (注記)一部の現代LMにはハイパー正確性歪みを含むことがある。
実験結果
リサーチクエスチョン
- RQ1大規模言語モデルは、確立された実験において人間行動の代表的サンプルをどの程度忠実に模倣できるか?
- RQ2より大きなモデルは人間研究で観察される既知の人口統計学的・性別関連効果を再現するか?
- RQ3経済学、言語学、社会心理学、集合知といった異なる領域を模倣する際、どのような体系的な歪みが生じるか?
- RQ4モデルの整合性とトレーニングデータは、Wisdom of Crowdsのような数値知識の正確性の模倣にどのように影響するか?
主な発見
- より大きなモデルは、Ultimatum Game、Garden Path、MilgramのTEにおいて、一般に小さなモデルより忠実な模倣を生成する。
- Ultimatum Game TEでは、ジェンダーと名前に依存する効果が一部の人間の発見と一致し、性別の組み合わせが受容率に影響を与える勇敢さ(chivalry)関連のパターンを含む。
- Garden Path TEは、特に大きなモデルで、庭の道パースの基本的な人間のパースの難しさを再現する。
- Milgram TEは、複雑さが増すにつれて服従の傾向が低下する傾向を示す一方で、新しい破壊的な服従シナリオも検討され、Milgram様の結果は元の人間研究と著しい差異を示した。
- Wisdom of Crowds TEは、最近のGPTモデル(ChatGPTとGPT-4を含む)におけるハイパー正確性歪みを明らかにし、模擬個人が難解な量にほぼ完璧な推定を提供することで、教育的または創造的用途に潜むリスクを浮き彫りにしている。
- 研究は、有用な歪み(例:性別バイアスの低減)と問題のある歪み(過度に正確な数値知識)を下流用途で区別していることを強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。