Skip to main content
QUICK REVIEW

[論文レビュー] People cannot distinguish GPT-4 from a human in a Turing test

Cameron R. Jones, Benjamin K. Bergen|arXiv (Cornell University)|May 9, 2024
Computability, Logic, AI Algorithms被引用数 19
ひとこと要約

事前登録された二人対話のチューリングテストにおいて、GPT-4は人間と判定された割合が54%で、ELIZAを上回る一方、実在の人間には及ばず、特定の条件下でGPT-4がライブの対話テストを通過できることを示した。

ABSTRACT

We evaluated 3 systems (ELIZA, GPT-3.5 and GPT-4) in a randomized, controlled, and preregistered Turing test. Human participants had a 5 minute conversation with either a human or an AI, and judged whether or not they thought their interlocutor was human. GPT-4 was judged to be a human 54% of the time, outperforming ELIZA (22%) but lagging behind actual humans (67%). The results provide the first robust empirical demonstration that any artificial system passes an interactive 2-player Turing test. The results have implications for debates around machine intelligence and, more urgently, suggest that deception by current AI systems may go undetected. Analysis of participants' strategies and reasoning suggests that stylistic and socio-emotional factors play a larger role in passing the Turing test than traditional notions of intelligence.

研究の動機と目的

  • 現代のAIが人間 interrogators と対話的なチューリングテストを通過できるかを評価する。
  • GPT-4、GPT-3.5、ELIZA、そして人間の通過率を統制された設定で定量化する。
  • 短い会話で人間性を判断する際のインタロガターの戦略と合図を特定する。

提案手法

  • 5分間の会話を含む、ランダム化された、統制された、事前登録済みの二人対話のチューリングテスト。
  • 証人3名:GPT-4、GPT-3.5、ELIZA;1名の人間証人が存在し、尋問者が証人が人間かどうかを判断する。
  • GPT-4とGPT-3.5に対して、簡潔でスラング風のペルソナを意図的な欠陥とともに採用させるプロンプトを指示。
  • 応答時間を人間らしい遅延として再現する遅延遅延を使用。
  • 主要な分析は、ロジスティック回帰を用いて通過率を機会(50%)と比較する。
  • 探索的分析は、戦略、人口統計効果、信頼度レベルを検討する。
Figure 1: A selection of conversations between human interrogators (green) and witnesses (grey). One of these four conversations is with a human witness, the rest are with AI. Interrogator verdicts and ground truth identities are below (to allow readers to indirectly participate). 1 1 1 A) Verdict:
Figure 1: A selection of conversations between human interrogators (green) and witnesses (grey). One of these four conversations is with a human witness, the rest are with AI. Interrogator verdicts and ground truth identities are below (to allow readers to indirectly participate). 1 1 1 A) Verdict:

実験結果

リサーチクエスチョン

  • RQ1GPT-4は5分間の対話型チューリングテストで人間と区別できるか?
  • RQ2GPT-4、GPT-3.5、ELIZAは、人間の証人に対する通過率でどのように比較されるか?
  • RQ3尋問者が人間性を判断する際に用いる戦略と理由は何で、どれが正しい判断を最も予測するか?

主な発見

  • GPT-4は54%の通過率(人間と判定)を達成し、GPT-3.5は50%、いずれもELIZAの22%を上回るが、GPT-4は実在人間の67%には及ばない。
  • ELIZAの通過率は機会を大幅に下回り、操作確認とデザインの感度を検証した。
  • 尋問者は、人間の経験、論理/数学、あるいは証人がAIであると非難する戦略を用いた場合により正確であり、言語的スタイルだけに依存すると正確さが低下した。
  • GPT-4が人間であると確信する自信は平均で73%であり、判断がランダムな推測ではなかったことを示唆する。
  • GPT-4とGPT-3.5の通過率に有意差は見られず、この設定ではGPT-4がGPT-3.5を上回らなかった。
  • 年齢は尋問者の正確性と負の相関を示した一方、LLMの専門知識はより良いパフォーマンスを予測しなかった。
Figure 2: Pass rates (left) and interrogator confidence (right) for each witness type. Pass rates are the proportion of the time a witness type was judged to be human. Error bars represent 95% bootstrap confidence intervals. Significance stars above each bar indicate whether the pass rate was signif
Figure 2: Pass rates (left) and interrogator confidence (right) for each witness type. Pass rates are the proportion of the time a witness type was judged to be human. Error bars represent 95% bootstrap confidence intervals. Significance stars above each bar indicate whether the pass rate was signif

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。