Skip to main content
QUICK REVIEW

[논문 리뷰] Take Caution in Using LLMs as Human Surrogates: Scylla Ex Machina

Yuan Gao, Dokyun Lee|arXiv (Cornell University)|2024. 10. 25.
Law, AI, and Intellectual Property인용 수 6
한 줄 요약

대부분의 고급 LLM은 단순한 11-20 Money Request Game에서 인간 분포를 모방하는 데 크게 실패하고, 모델과 프롬프트 간에 불안정성을 보이며, 신중한 문서화와 평가 없이 LLM을 인간 대리인으로 사용하는 데 주의를 기울일 것을 시사한다.

ABSTRACT

Recent studies suggest large language models (LLMs) can exhibit human-like reasoning, aligning with human behavior in economic experiments, surveys, and political discourse. This has led many to propose that LLMs can be used as surrogates or simulations for humans in social science research. However, LLMs differ fundamentally from humans, relying on probabilistic patterns, absent the embodied experiences or survival objectives that shape human cognition. We assess the reasoning depth of LLMs using the 11-20 money request game. Nearly all advanced approaches fail to replicate human behavior distributions across many models. Causes of failure are diverse and unpredictable, relating to input language, roles, and safeguarding. These results advise caution when using LLMs to study human behavior or as surrogates or simulations.

연구 동기 및 목표

  • 사회과학 실험에서 LLM이 인간 행동의 신뢰할 만한 대리인으로 작용할 수 있는지 평가한다.
  • 프롬프트, 역할, 언어, 기억 등 설계 선택이 LLM의 추론 깊이와 행동에 어떤 영향을 미치는지 조사한다.
  • 복제 가능성과 인간 유사 행동으로의 일반화를 저해하는 LLM의 실패 모드와 한계를 식별한다.
  • 강력한 문서화로 LLM을 대리인으로 활용하기 위한 연구자 가이드라인을 제공한다.

제안 방법

  • 각 모델에 대해 11-20 Money Request Game에서 모델당 1,000개의 깨끗한 세션을 평가하여 여덟 가지 인기 LLM(GPT-4, GPT-3.5, Claude3-Opus, Claude3-Sonnet, Llama3-70b, Llama3-8b, Llama2-13b, Llama2-7b)을 비교한다.
  • LLM 응답 분포를 인간 분포 및 Arad와 Rubinstein(2012)의 내시 균형 예측과 비교한다.
  • OOD 프롬프트와 인간 예시 프롬프트, 검색 기반 생성(RAG), 미세조정의 효과를 비교한다.
  • 직접 예시, 제로샷 프롬프트, 역할 부여, 다중 언어 등 프롬프트 변형이 프롬프트 취성에 미치는 영향을 평가한다.
  • 선택에 대한 자기 보고 합리화를 LLM과 인터뷰를 통해 수집한다.
  • 실패 모드를 분석하고 LLM을 인간 대리인으로 사용할 때의 시사점을 논의한다.
  • 프롬프트 엔지니어링, 미세조정, RAG의 세 가지 전략을 도입하여 인간 유사 행동을 유도할 수 있는지 평가한다.

실험 결과

연구 질문

  • RQ1다양한 모델 크기와 계열에서 LLM이 11-20 Money Request Game에서 인간과 유사한 분포를 생성하는가?
  • RQ2입력 설계 선택(역할, 언어, 프롬프트)이 LLM의 추론 깊이 및 인간 행동과의 일치에 어떤 영향을 미치는가?
  • RQ3프롬프트, RAG 또는 미세조정이 간단한 경제 게임에서 LLM이 인간 의사결정 분포를 재현하게 만드는가?
  • RQ4신뢰할 수한 인간 대리인으로서의 LLM을 방해하는 주요 실패 모드와 장벽은 무엇인가?
  • RQ5재현성과 투명성을 보장하기 위해 연구자들이 LLM을 대리인으로 사용할 때 따라야 할 가이드라인은 무엇인가?

주요 결과

  • GPT-3.5를 제외한 대부분의 고급 LLM은 20 또는 19를 선호하며, 11-20 게임에서 인간의 일반적인 심층도보다 두 단계 낮은 추론 수준을 시사한다.
  • LLM의 응답 분포는 일반적으로 인간 분포와 통계적으로 유의하게 벗어나며(p < 0.001, Jensen-Shannon 거리), 차이가 있다.
  • 모델 간 응답 패턴은 크게 달라지며, 더 큰 모델이 반드시 더 인간에 가까운 것은 아니며, 일부 모델은 인간보다 깊이가 낮거나 세션 간 변동이 큰 것으로 나타난다.
  • OOD 접근법으로 인간 같은 행동을 이끌어내는 경우가 거의 실패하며, GPT-4o만이 인간과 통계적으로 구분 불가한 분포를 보였다.
  • 프롬프트나 RAG를 통해 명시적 인간 예시를 제공하면 유사성이 약간 증가하지만 인간 분포를 완전히 재현하지는 못하며, GPT-4o의 미세조정이 더 가까운 정렬을 달성한다.
  • 프롬프트 프레이밍(역할, 언어) 및 예시 제공은 LLM 행동의 불안정성과 프롬프트 취성을 유발한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.