[논문 리뷰] Large Language Models Pass the Turing Test
본 연구는 GPT-4.5, LLaMa-3.1, GPT-4o, 및 ELIZA를 비교한 두 개의 무작위화된 3자 튜링 테스트를 수행하여, GPT-4.5-PERSONA가 73%의 승률로 합격했고 다른 모델은 특히 페르소나 프롬프트가 없을 때는 확률에 비해 낮거나 근접한 수준에 머무름을 보여준다.
We evaluated 4 systems (ELIZA, GPT-4o, LLaMa-3.1-405B, and GPT-4.5) in two randomised, controlled, and pre-registered Turing tests on independent populations. Participants had 5 minute conversations simultaneously with another human participant and one of these systems before judging which conversational partner they thought was human. When prompted to adopt a humanlike persona, GPT-4.5 was judged to be the human 73% of the time: significantly more often than interrogators selected the real human participant. LLaMa-3.1, with the same prompt, was judged to be the human 56% of the time -- not significantly more or less often than the humans they were being compared to -- while baseline models (ELIZA and GPT-4o) achieved win rates significantly below chance (23% and 21% respectively). The results constitute the first empirical evidence that any artificial system passes a standard three-party Turing test. The results have implications for debates about what kind of intelligence is exhibited by Large Language Models (LLMs), and the social and economic impacts these systems are likely to have.
연구 동기 및 목표
- 현대의 AI 관찰자들이 실제 인간과의 3자 튜링 테스트를 통과할 수 있는지 평가한다.
- 프롬 prompting의 영향(PERSONA 대 NO-PERSONA)이 튜링 테스트 성능에 미치는 영향을 평가한다.
- 두 개의 독립된 인구(UCSD 학부생과 Prolific 근로자)에서 시험을 재현한다.
- 다양한 AI 시스템(GPT-4.5, LLaMa-3.1, GPT-4o)와 기준 모델(ELIZA)을 비교한다.
- 인터로리터가 인간과 기계를 구분하는 데 사용하는 전략과 근거를 검토한다.
제안 방법
- 무작위화되고 제어된 3자 튜링 테스트를 동시에 인간 및 AI 관찰자와 함께 수행한다.
- 두 가지 프롬 prompting 조건을 사용한다: NO-PERSONA와 PERSONA(인간과 유사한 페르소나).
- 여섯 가지 AI 관찰자 구성(GPT-4.5-PERSONA, GPT-4.5-NO-PERSONA, LLAMA-PERSONA, LLAMA-NO-PERSONA, GPT-4o-NO-PERSONA, ELIZA)을 테스트한다.
- 두 독립된 참가자 모집단(UCSD 학부생과 Prolific 근로자)을 모집하고 참가자당 8라운드를 수행한다.
- 인터로리터가 AI를 인간으로 식별한 비율을 승률로 측정하고 부트스트랩 신뢰구간 및 가설 검정을 수행한다.
- 전체 전사 및 데이터를 공개(OSF)한다.
실험 결과
연구 질문
- RQ1현대 LLM이 인간과 유사한 페르소나를 제시받도록 프롬프트될 때 3자 튜링 테스트를 통과하는가?
- RQ2프롬 prompting(PERSONA 대 NO-PERSONA)이 서로 다른 모델의 합격률에 어떤 영향을 미치는가?
- RQ3두 독립된 인구(학부생과 Prolific 근로자)에서 결과가 재현 가능한가?
- RQ4인터로리터가 사용하는 전략은 무엇이며 어떤 전략이 정확한 판단을 예측하는가?
- RQ5기준 모델(ELIZA)은 현대 LLM에 대한 조작 확인으로서 어떻게 성능을 보이는가?
주요 결과
| AI 증인 | Study | Win Rate | Wins | Losses | Total |
|---|---|---|---|---|---|
| GPT-4.5-PERSONA | Prolific | 75.5% | 111 | 36 | 147 |
| GPT-4.5-PERSONA | Undergraduates | 69.2% | 74 | 33 | 107 |
| LLAMA-PERSONA | Prolific | 64.7% | 90 | 49 | 139 |
| LLAMA-PERSONA | Undergraduates | 45.4% | 49 | 59 | 108 |
| LLAMA-NO-PERSONA | Undergraduates | 26.4% | 14 | 39 | 53 |
| LLAMA-NO-PERSONA | Prolific | 42.1% | 32 | 44 | 76 |
| GPT-4.5-NO-PERSONA | Undergraduates | 27.7% | 18 | 47 | 65 |
| GPT-4.5-NO-PERSONA | Prolific | 27.4% | 20 | 53 | 73 |
| ELIZA | Undergraduates | 18.3% | 11 | 49 | 60 |
| ELIZA | Prolific | 25.4% | 18 | 53 | 71 |
| GPT-4o-NO-PERSONA | Undergraduates | 16.7% | 9 | 45 | 54 |
- GPT-4.5-PERSONA은 전체적으로 73%의 승률을 달성했으며 두 인구 모두에서 우연 수준을 크게 상회했다.
- LLAMA-PERSONA은 전체적으로 56%의 승률을 달성했으며 학부생에서 우연과 크게 다르지 않았지만 Prolific에서는 우연을 능가했다.
- NO-PERSONA 관찰자는 일반적으로 우연 수준을 넘지 못했고, GPT-4.5-NO-PERSONA와 LLAMA-NO-PERSONA는 인구에 따라 50% 근처 또는 그 이하를 보였다.
- ELIZA와 GPT-4o-NO-PERSONA는 두 인구에서 우연 수준보다 현저히 낮은 성능을 보였다.
- PERSONA 프롬프트를 사용한 관찰자에 대한 PASSING 상태는 인구를 초월하여 견고했고, 프롬프팅이 3자 튜링 테스트의 합격에 중요한 역할을 함을 시사한다.
- 인터로리터는 언어적 스타일과 상호작용 역학에 의존했으며, 일부는 '자물쇠 해제' 스타일 프롬프트로 정확도 향상을 보였고, 지식 기반 질문은 예측력이 낮았다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.