QUICK REVIEW

[논문 리뷰] Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies

Gati Aher, Rosa I. Arriaga|arXiv (Cornell University)|2022. 08. 18.

Topic Modeling인용 수 123

한 줄 요약

본 논문은 Turing Experiments (TEs)를 도입하여 대형 언어 모델이 여러 인간 피험자를 얼마나 잘 모의하고 경제학, 언어학, 사회심리학, 집단 지성에 걸친 고전적 인간 피험자 연구를 재현하는지 평가하며, 충실한 모의와 왜곡을 모두 드러낸다.

ABSTRACT

We introduce a new type of test, called a Turing Experiment (TE), for evaluating to what extent a given language model, such as GPT models, can simulate different aspects of human behavior. A TE can also reveal consistent distortions in a language model's simulation of a specific human behavior. Unlike the Turing Test, which involves simulating a single arbitrary individual, a TE requires simulating a representative sample of participants in human subject research. We carry out TEs that attempt to replicate well-established findings from prior studies. We design a methodology for simulating TEs and illustrate its use to compare how well different language models are able to reproduce classic economic, psycholinguistic, and social psychology experiments: Ultimatum Game, Garden Path Sentences, Milgram Shock Experiment, and Wisdom of Crowds. In the first three TEs, the existing findings were replicated using recent models, while the last TE reveals a "hyper-accuracy distortion" present in some language models (including ChatGPT and GPT-4), which could affect downstream applications in education and the arts.

연구 동기 및 목표

제어된 연구에서 다수의 인간 참가자를 제로샷으로 시뮬레이션하는 Turing Experiments (TEs)로 정의한다.
프롬프트와 생성 기록을 사용하여 언어 모델에서 TE를 실행하는 방법론을 시연한다.
경제학, 심리언어학, 사회심리학의 잘 알려진 발견을 재현하고 LM 모의에서의 왜곡을 식별한다.
모델 크기가 충실도에 미치는 영향을 평가하고 다양한 영역에서의 체계적 왜곡을 밝힌다.

제안 방법

피험자 한 명 또는 다수의 피험자 시뮬레이션을 위해 신중하게 구성된 프롬프트에 무작위로 완성되도록 LM이 생성하는 제로샷 TE 프레임워크를 도입한다.
이름 기반 및 인구통계 입력(호칭, 성, 성별 표식)을 사용해 다양한 시뮬레이션 피험자를 구현하고 실험의 기록을 대본(transcript)과 같은 형태로 재구성한다.
완성의 ‘타당도율’ 극대를 위해 프롬프트를 설계하고 검증하며, 가설 설계와 결과 검정을 분리해 p-해킹을 피한다.
네 가지 고전 연구(Ultimatum Game, Garden Path Sentences, Milgram Shock Experiment, Wisdom of Crowds)에 대해 여러 GPT 기반 모델과 새로운 컨트롤 조건 변형을 포함하여 TE 프레임워크를 적용한다.
LM 유도 결과를 확립된 인간 피험자 결과와 비교해 충실도를 평가하고 왜곡을 식별하며, 일부 현대 LM에서 발견되는 하이퍼 정확도 왜곡을 포함한다.

실험 결과

연구 질문

RQ1대형 언어 모델이 확립된 실험에서 인간 행동의 대표 샘플을 얼마나 충실하게 시뮬레이션할 수 있는가?
RQ2더 큰 모델이 인간 연구에서 관찰된 알려진 인구통계학적 또는 성별 관련 효과를 재현하는가?
RQ3다른 영역(경제학, 언어학, 사회심리학, 집단 지성)을 시뮬레이션할 때 어떤 체계적 왜곡이 나타나는가?
RQ4모델 정렬(alignment)과 학습 데이터가 Wisdom of Crowds의 수치 지식과 같은 시뮬레이션 정확도에 어떻게 영향을 미치는가?

주요 결과

더 큰 모델이 일반적으로 Ultimatum Game, Garden Path, Milgram TE에서 더 충실한 모의를 생성한다.
Ultimatum Game TE에서 시뮬레이션은 일부 인간 연구와 일치하는 성별 및 이름 의존 효과를 보이며, 성별 매칭이 수락률에 영향을 주는 기사도적 패턴을 포함한다.
Garden Path TE는 움찔하는 문장에 대한 기본적인 인간 파싱 난이도를 재현하며, 특히 큰 모델에서 두드러진다.
Milgram TE는 난이도가 증가함에 따라 순종이 하향 경향을 보이나, 새로운 파괴적 순종 시나리오도 탐구되었고 Milgram 유사 결과는 원래 연구와 현저한 차이를 보였다.
Wisdom of Crowds TE는 최근의 GPT 계열 모델(ChatGPT 및 GPT-4 포함)에서 하이퍼 정확도 왜곡을 드러내며, 시뮬레이션 피험자들이 잘 알려지지 않은 양에 대해 거의 완벽한 추정치를 제시하는 경향을 보이고 교육적·창의적 응용의 잠재적 위험을 강조한다.
연구는 유용한 왜곡(예: 성별 편견 감소)과 문제가 되는 왜곡(수치 지식의 과도한 정확성) 간의 구분을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.