QUICK REVIEW

[論文レビュー] Does GPT-4 pass the Turing test?

Cameron R. Jones, Benjamin K. Bergen|arXiv (Cornell University)|Oct 31, 2023

Misinformation and Its Impacts被引用数 13

ひとこと要約

本研究は公開オンライン・チューリングテストにおけるGPT-4を評価し、GPT-4のプロンプトは人間63%に対して最大41%の成功を達成する一方、プロンプトによるばらつきが顕著で、問診者の人口統計と正確さの間に明確な関連は見られなかった。

ABSTRACT

We evaluated GPT-4 in a public online Turing test. The best-performing GPT-4 prompt passed in 49.7% of games, outperforming ELIZA (22%) and GPT-3.5 (20%), but falling short of the baseline set by human participants (66%). Participants' decisions were based mainly on linguistic style (35%) and socioemotional traits (27%), supporting the idea that intelligence, narrowly conceived, is not sufficient to pass the Turing test. Participant knowledge about LLMs and number of games played positively correlated with accuracy in detecting AI, suggesting learning and practice as possible strategies to mitigate deception. Despite known limitations as a test of intelligence, we argue that the Turing test continues to be relevant as an assessment of naturalistic communication and deception. AI models with the ability to masquerade as humans could have widespread societal consequences, and we analyse the effectiveness of different strategies and criteria for judging humanlikeness.

研究の動機と目的

GPT-4がオンラインのチューリングテストで人間と誤認され得るかを評価する。
複数のプロンプトを横断してGPT-4をGPT-3.5およびELIZAのベースラインと比較する。
プロンプト設計、戦略、問診者の特徴が合格の可能性にどのように影響するかを分析する。
チューリング・テストが自然言語的なコミュニケーションと欺瞞の研究に依然として関連する理由を検討する。

提案手法

問診者と目撃者を含むオンラインの二人対戦チューリングテストを実装した。
25のAI目撃者をGPT-3.5またはGPT-4を用いて、温度設定、ペルソナ、エラー、AI対人間の framing など多様なプロンプトとパラメータで作成した。
時間/長さ制限、タイピング遅延、評決と自信度の決定ログを備えたチャット・インターフェースを実装した。
turingtest.live上で、目撃者へ人間またはAIの無作為割り当てとAI探索/活用モデル選択を実施した。
デモグラフィックデータを収集し、 examinerの戦略、評決理由、プロンプト間の性能を分析した。
GPT-4のプロンプトをGPT-3.5のプロンプトおよびELIZAベースラインと比較した。

実験結果

リサーチクエスチョン

RQ1GPT-4のオンライン・チューリングテストにおける成功率は、人間およびベースラインモデル（ELIZA、GPT-3.5）と比べてどの程度か。
RQ2プロンプト設計は、対話的な設定でGPT-4が人間として通過する能力にどのように影響するか。
RQ3AI対人間の識別を正しく予測する問診者の戦略と参加者の人口統計は何か。
RQ4AI対人間の評決に対して問診者が示す理由は何であり、それは人間らしさの手掛かりについて何を示すのか。
RQ5この課題の経験（ゲーム数）が問診者の正確さや信頼性を向上させるか。

主な発見

Witness	Type	SR (Overall) (n)	SR (First Games) (n)
ELIZA	ELIZA	0.27 (60)	0.16 (32)
GPT-3.5	Victor	0.05 (21)	0.00 (7)
GPT-3.5	Juliet	0.14 (21)	0.17 (12)
GPT-4	Foxtrot	0.06 (17)	0.11 (9)
GPT-4	Victor	0.19 (32)	0.27 (15)
GPT-4	AI21	0.19 (42)	0.29 (21)
GPT-4	Juliet	0.25 (63)	0.33 (30)
GPT-4	Quebec	0.31 (59)	0.45 (20)
GPT-4	Papa	0.36 (87)	0.33 (33)
GPT-4	November	0.40 (140)	0.41 (69)
GPT-4	Sierra	0.41 (79)	0.40 (35)
Human	Human	0.63 (260)	0.64 (108)

GPT-4の最良プロンプトは41%の成功率を達成し、ELIZA（27%）およびGPT-3.5ベースライン（5–14%）を上回ったが、人間のパフォーマンス（63%）には大きく及ばなかった。
GPT-4の性能にはプロンプト間で大きなばらつきがあり、あるプロンプトは約6–26%、他は約40–41%程度。
問診者のAI目撃者に対する正確さは人口統計やLLMとの事前の相互作用では予測されず、実験内での学習効果は正確さに有意な影響を及ぼさなかった。
言語スタイルと社会情動的手がかりが、AI対人間の判断における主要な要因であり、真の知識や推論の証拠ではなかった。
ELIZAはシンプルであるにもかかわらず、対人間問診者を27%のゲームで欺いており、ELIZA効果とチューリングテストが知性の尺度として持つ限界を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。