QUICK REVIEW

[論文レビュー] Large Language Models Pass the Turing Test

Cameron R. Jones, Benjamin K. Bergen|ArXiv.org|Mar 31, 2025

AI in Service Interactions被引用数 5

ひとこと要約

本研究は、GPT-4.5、LLaMa-3.1、GPT-4o、ELIZAを比較する2つのランダム化三者テストを実施し、GPT-4.5-PERSONAが73%の勝率で合格する一方、他はペルソナ提示なしでは特に確率の境界付近かそれ以下となることを示した。

ABSTRACT

We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two randomised, controlled, and pre-registered Turing tests on independent populations. Participants had 5 minute conversations simultaneously with another human participant and one of these systems before judging which conversational partner they thought was human. When prompted to adopt a humanlike persona, GPT-4.5 was judged to be the human 73% of the time: significantly more often than interrogators selected the real human participant. LLaMa-3.1, with the same prompt, was judged to be the human 56% of the time -- not significantly more or less often than the humans they were being compared to -- while baseline models (ELIZA and GPT-4o) achieved win rates significantly below chance (23% and 21% respectively). The results constitute the first empirical evidence that any artificial system passes a standard three-party Turing test. The results have implications for debates about what kind of intelligence is exhibited by Large Language Models (LLMs), and the social and economic impacts these systems are likely to have.

研究の動機と目的

現代のAI witnessesが現実の人間に対して三者テューリングテストに合格できるかを評価する。
プロンプトの影響（PERSONA対 NO-PERSONA）がテストの合格率に与える影響を評価する。
二つの独立した集団（UCSDの学部生とProlificの労働者）でテストを再現する。
複数のAIシステム（GPT-4.5、LLaMa-3.1、GPT-4o）とベースライン（ELIZA）を比較する。
interrogatorsが人間と機械を区別する際の戦略と理由を検討する。

提案手法

人間とAI witnessを同時に含む、ランダム化された対照的な三者テューリングテストを実施する。
2つの prompting 条件を使用する：NO-PERSONAと PERSONA（人間らしいペルソナ）。
六つのAI witness構成をテストする（GPT-4.5-PERSONA, GPT-4.5-NO-PERSONA, LLAMA-PERSONA, LLAMA-NO-PERSONA, GPT-4o-NO-PERSONA, ELIZA）。
二つの独立した参加者集団（UCSD学部生とProlificの労働者）を募集し、各参加者につき8ラウンドを実施する。
AIを人間として識別したインタロゲーターの割合を勝率として測定し、ブートストラップCIと仮説検定を用いる。
全てのトランスクリプトとデータをOSFで公開する。

実験結果

リサーチクエスチョン

RQ1現代のLLMは、人間らしいペルソナを採用するように促された場合、三者テューリングテストに合格するか。
RQ2 prompting（PERSONA vs NO-PERSONA）がモデル間で合格率にどのように影響するか。
RQ3二つの独立した集団（学部生とProlificの労働者）で結果は再現可能か。
RQ4インタロゲーターはどのような戦略を用い、どの戦略が正確な判断を予測するのか。
RQ5ベースラインモデル（ELIZA）は現代のLLMに対して操作チェックとしてどの程度機能するか。

主な発見

AI Witness	Study	Win Rate	Wins	Losses	Total
GPT-4.5-PERSONA	Prolific	75.5%	111	36	147
GPT-4.5-PERSONA	Undergraduates	69.2%	74	33	107
LLAMA-PERSONA	Prolific	64.7%	90	49	139
LLAMA-PERSONA	Undergraduates	45.4%	49	59	108
LLAMA-NO-PERSONA	Undergraduates	26.4%	14	39	53
LLAMA-NO-PERSONA	Prolific	42.1%	32	44	76
GPT-4.5-NO-PERSONA	Undergraduates	27.7%	18	47	65
GPT-4.5-NO-PERSONA	Prolific	27.4%	20	53	73
ELIZA	Undergraduates	18.3%	11	49	60
ELIZA	Prolific	25.4%	18	53	71
GPT-4o-NO-PERSONA	Undergraduates	16.7%	9	45	54

GPT-4.5-PERSONAは総合で73%の勝率を達成し、両方の集団で偶然性を大幅に上回った。
LLAMA-PERSONAは総合で56%の勝率を達成し、学部生では偶然の差ではないがProlificでは偶然を上回った。
NO-PERSONAの証人は一般に偶然性を超えず、GPT-4.5-NO-PERSONAとLLAMA-NO-PERSONAは集団によって50%前後またはそれ未満の幅で推移した。
ELIZAとGPT-4o-NO-PERSONAは両方の集団で偶然性を顕著に下回るパフォーマンスを示した。
PERSONAで促された証人の合格 statusは集団を超えて堅牢であり、 promptingが三者テューリングテストの合格に重要な役割を果たすことを示唆している。
インタロゲーターは言語スタイルと対話ダイナミクスに基づく推定を行い、“jailbreak”スタイルのプロンプトから知識ベースの質問での予測性が向上する場合があった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。