Skip to main content
QUICK REVIEW

[论文解读] Large Language Models Pass the Turing Test

Cameron R. Jones, Benjamin K. Bergen|ArXiv.org|Mar 31, 2025
AI in Service Interactions被引用 5
一句话总结

本研究进行了两次随机化的三方图灵测试,比较 GPT-4.5、LLaMa-3.1、GPT-4o 与 ELIZA;结果显示 GPT-4.5-PERSONA 以 73% 的胜率通过测试,而其他模型在没有个性化提示时多在机会水平徘徊或以下。

ABSTRACT

We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two randomised, controlled, and pre-registered Turing tests on independent populations. Participants had 5 minute conversations simultaneously with another human participant and one of these systems before judging which conversational partner they thought was human. When prompted to adopt a humanlike persona, GPT-4.5 was judged to be the human 73% of the time: significantly more often than interrogators selected the real human participant. LLaMa-3.1, with the same prompt, was judged to be the human 56% of the time -- not significantly more or less often than the humans they were being compared to -- while baseline models (ELIZA and GPT-4o) achieved win rates significantly below chance (23% and 21% respectively). The results constitute the first empirical evidence that any artificial system passes a standard three-party Turing test. The results have implications for debates about what kind of intelligence is exhibited by Large Language Models (LLMs), and the social and economic impacts these systems are likely to have.

研究动机与目标

  • 评估当代 AI 证人在真实人类面前是否能够通过三方图灵测试。
  • 评估提示方式(PERSONA 与 NO-PERSONA)对图灵测试表现的影响。
  • 在两个独立的参与者人群中复制测试(UCSD 本科生与 Prolific 工作者)。
  • 比较多种 AI 系统(GPT-4.5、LLaMa-3.1、GPT-4o)以及基线 ELIZA。
  • 考察质询者区分人类与机器所使用的策略及原因。

提出的方法

  • 开展随机化、受控的三方图灵测试,核会同时涉及真人证人与 AI 证人。
  • 使用两种提示条件:NO-PERSONA 和 PERSONA(类人设)。
  • 测试六种 AI 证人配置(GPT-4.5-PERSONA、GPT-4.5-NO-PERSONA、LLAMA-PERSONA、LLAMA-NO-PERSONA、GPT-4o-NO-PERSONA、ELIZA)。
  • 招募两个独立的参与者人群(UCSD 本科生与 Prolific 工作者),并为每位参与者进行 8 轮测试。
  • 以识别 AI 为人类的质询者比例作为胜率,并给出带自助法置信区间的假设检验。
  • 公开提供完整对话记录和数据(OSF)。

实验结果

研究问题

  • RQ1在提示采用人类化人设时,当代大型语言模型是否能通过三方图灵测试?
  • RQ2提示方式(PERSONA 与 NO-PERSONA)如何影响不同模型的通过率?
  • RQ3结果是否在两个独立人群(本科生和 Prolific 工作者)中重复?
  • RQ4质询者使用了哪些策略,哪些对准确判断有预测力?
  • RQ5作为对照检查,基线模型(ELIZA)的表现如何,与现代 LLM 相比较?

主要发现

AI WitnessStudyWin RateWinsLossesTotal
GPT-4.5-PERSONAProlific75.5%11136147
GPT-4.5-PERSONAUndergraduates69.2%7433107
LLAMA-PERSONAProlific64.7%9049139
LLAMA-PERSONAUndergraduates45.4%4959108
LLAMA-NO-PERSONAUndergraduates26.4%143953
LLAMA-NO-PERSONAProlific42.1%324476
GPT-4.5-NO-PERSONAUndergraduates27.7%184765
GPT-4.5-NO-PERSONAProlific27.4%205373
ELIZAUndergraduates18.3%114960
ELIZAProlific25.4%185371
GPT-4o-NO-PERSONAUndergraduates16.7%94554
  • GPT-4.5-PERSONA 总体胜率达到 73%,在两个群体中显著高于 chance。
  • LLAMA-PERSONA 总体胜率为 56%,在本科生组未显著高于机会水平,但在 Prolific 组高于机会水平。
  • NO-PERSONA 证人通常未能超过机会水平;GPT-4.5-NO-PERSONA 与 LLAMA-NO-PERSONA 的胜率在 50% 附近波动,取决于人群。
  • ELIZA 与 GPT-4o-NO-PERSONA 在两个人群中显著低于机会水平。
  • 在两个人群中,采用 PERSONA 提示的证人具备稳定的通过状态,提示策略在通过三方图灵测试中起关键作用。
  • 质询者依赖语言风格和互动动态,其中某些“越狱”风格提示略有提升;基于知识的问题预测性较低。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。