Skip to main content
QUICK REVIEW

[논문 리뷰] Playing repeated games with Large Language Models

Elif Akata, Lion Schulz|arXiv (Cornell University)|2023. 05. 26.
Natural Language Processing Techniques인용 수 37
한 줄 요약

이 논문은 GPT-3, GPT-3.5, GPT-4가 유한 반복 2x2 게임에서 어떻게 동작하는지 조사하여 감옥의 딜레마와 유사한 설정에서 강한 자기 이익 추구와 배틀 오브 더 섀스의 협력 부재를 밝혀내며, 테스트와 프롬프트 전반에서 결과가 견고함을 보여준다. 또한 GPT-4에게 상대 플레이어를 예측하거나 자기 오류 가능성을 인정하도록 프롬핑하는 것이 협력과 조정을 개선할 수 있음을 보인다.

ABSTRACT

LLMs are increasingly used in applications where they interact with humans and other agents. We propose to use behavioural game theory to study LLM's cooperation and coordination behaviour. We let different LLMs play finitely repeated $2 imes2$ games with each other, with human-like strategies, and actual human players. Our results show that LLMs perform particularly well at self-interested games like the iterated Prisoner's Dilemma family. However, they behave sub-optimally in games that require coordination, like the Battle of the Sexes. We verify that these behavioural signatures are stable across robustness checks. We additionally show how GPT-4's behaviour can be modulated by providing additional information about its opponent and by using a "social chain-of-thought" (SCoT) strategy. This also leads to better scores and more successful coordination when interacting with human players. These results enrich our understanding of LLM's social behaviour and pave the way for a behavioural game theory for machines.

연구 동기 및 목표

  • 제어된 상호작용 설정에서 행동 게임 이론을 활용한 LLM의 사회적 행동 연구를 동기 부여한다.
  • 협력과 조정에 초점을 맞춰 표준 2x2 게임 가족에서의 LLM 성능을 특성화한다.
  • 반복적 상호작용에서 LLM의 행동 서명을 식별하고 프롬프트 및 보상 프레이밍에 따른 견고성을 테스트한다.
  • 다음과 같은 간단한 중재(다른 플레이어 예측, 파트너의 오류 가능성 인정)가 LLM의 조정 능력을 향상시키는지 탐색한다.

제안 방법

  • 두 LLM이 각 2x2 게임의 10 라운드를 전체 정보와 함께 수행하는 프롬프트 체인 상호작용.
  • GPT-3, GPT-3.5, GPT-4를 사용하여 가족 간의 144개의 서로 다른 2x2 게임(윈-윈, 죄수의 딜레마, 편향, 순환, 불공정, 세 번째 최상) 평가.

실험 결과

연구 질문

  • RQ1LLMs가 2x2 게임 가족 전반에서 협력적 대 자기 중심적 행동을 보이는가?
  • RQ2Battle of the Sexes와 같은 표준 협력 게임에서 LLM이 조정할 수 있는가?
  • RQ3모델 크기(GPT-3 대 GPT-3.5 대 GPT-4) 및 프롬프트 변형에 따라 LLM의 행동은 어떻게 달라지는가?
  • RQ4중재(예: 상대의 예측, 파트너의 실수 가능성 가정)가 LLM의 사회적 행동을 조정할 수 있는가?
  • RQ5구성, 보상 표현, 프롬프트 순서에 대한 프레이밍에 관대하게 견고한가?

주요 결과

  • LLMs는 특히 죄수의 딜레마 가족에서 자기 이익을 강조하는 게임에서 일반적으로 성능이 좋다.
  • LLMs는 배틀 오브 더 섀스와 같이 조정이 핵심인 게임에서 협력 면에서 다소 미달의 성능을 보인다.
  • GPT-4는 죄수의 딜레마 시나리오에서 이전에 한 차례 배신이 있으면 무자비한 배신을 보인다.
  • GPT-4는 번갈아 가며 상대와 교대로 행동해야 하는 배틀 오브 더 섀스에서 조정에 어려움을 시사한다.
  • GPT-4에게 파트너의 행동을 예측하도록 프롬핑하는 것이 협력 및 교대 행동을 조정하는 능력을 향상시킨다.
  • 다른 플레이어가 실수할 수 있음을 전달하는 것이 라운드별로 GPT-4의 협력을 회복시키는 데 도움이 된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.