[논문 리뷰] Simulating Human Strategic Behavior: Comparing Single and Multi-agent LLMs
본 논문은 싱글- 및 멀티 에이전트 LLM 아키텍처(GPT-3.5/4)가 다섯 라운드의 최후통첩 게임 전략을 탐구하는 데 있어 탐욕적(greedy) 및 공정한(fair) 성격을 시뮬레이션하는 것을 비교한다; 멀티에이전트 LLM이 싱글 LLM보다 사람의 행동과 더 자주 일치한다(최대 87.5%).
When creating policies, plans, or designs for people, it is challenging for designers to foresee all of the ways in which people may reason and behave. Recently, Large Language Models (LLMs) have been shown to be able to simulate human reasoning. We extend this work by measuring LLMs ability to simulate strategic reasoning in the ultimatum game, a classic economics bargaining experiment. Experimental evidence shows human strategic reasoning is complex; people will often choose to punish other players to enforce social norms even at personal expense. We test if LLMs can replicate this behavior in simulation, comparing two structures: single LLMs and multi-agent systems. We compare their abilities to (1) simulate human-like reasoning in the ultimatum game, (2) simulate two player personalities, greedy and fair, and (3) create robust strategies that are logically complete and consistent with personality. Our evaluation shows that multi-agent systems are more accurate than single LLMs (88 percent vs. 50 percent) in simulating human reasoning and actions for personality pairs. Thus, there is potential to use LLMs to simulate human strategic reasoning to help decision and policy-makers perform preliminary explorations of how people behave in systems.
연구 동기 및 목표
- 사람을 위한 계획, 정책 또는 응용 프로그램을 설계할 때 전략적 인간 행동을 예상하도록 설계 연구자들을 자극한다.
- LLM 기반 시뮬레이션이 경제 게임에서 사회적 규칙과 전략적 추론을 포착할 수 있는지 평가한다.
- 싱글 대 멀티-에이전트 LLM 아키텍처를 비교하여 성격에 일관된 완전한 전략 생성을 여부와 게임 플레이에 미치는 영향을 평가한다.
- 전략의 강건성을 평가하고 시뮬레이션 오차의 일반적 원인을 식별한다.
제안 방법
- 두 성격 유형: 탐욕적(greedy) 및 공정한(fair)으로 두 사람을 상정한 다섯 라운드 최후통첩 게임 시뮬레이션을 사용한다.
- 두 가지 LLM 아키텍처를 구현한다: 두 플레이어에 대해 단일 GPT-4를 사용하는 싱글-에이전트 방식과 제안자와 수신자에 대해 각각 독립된 GPT-4 에이전트를 사용하는 멀티에이전트 구성.
- 프롬프트 설계는 에이전트에게 전략을 생성하게 한 다음 그 전략에 따라 다섯 라운드 게임을 수행하도록 한다.
- 경제학 문헌의 오퍼 및 수락/거절 결정에 대한 인간-기준 데이터를 바탕으로 출력물을 평가한다.
- 전략 생성 문제와 게임플레이 편차를 구분하기 위해 오류를 분석한다.
- GPT-3.5와 GPT-4를 네 가지 아키텍처/성격 조합에서 테스트하여 총 40회의 시뮬레이션을 수행한다.

실험 결과
연구 질문
- RQ1RQ1: 어떤 아키텍처가 싱글 대 멀티-에이전트 중 다섯 라운드 최후통첩 게임에서 인간과 유사한 행동을 더 정확하게 시뮬레이션하는가?
- RQ2RQ2: 어떤 아키텍처가 두 성격 유형( greedy 및 fair)에 대응하는 행동을 더 정확하게 시뮬레이션하는가?
- RQ3RQ3: 어떤 아키텍처가 성격에 대해 완전하고 일관된 전략을 더 자주 산출하는가?
주요 결과
- 멀티에이전트 LLM이 인간 행동과의 일치도가 더 높았으며(최고 설정에서 87.5%), 싱글 LLM은 이보다 낮은 경우가 많았다(최저 42.5%).
- 아키텍처 전반에서 멀티에이전트 구성은 인간과 유사한 행동을 더 신뢰성 있게 산출했다(MultiAgent-3.5: 82.5%; MultiAgent-4: 87.5%; SingleLLM-3.5: 42.5%; SingleLLM-4: 50%).
- 싱글-LLM 시뮬레이션의 대부분의 오류는 게임 플레이보다는 전략 생성에서 기인했다(예: 불완전하거나 성격과 일치하지 않는 전략).
- 멀티-에이전트 시뮬레이션에서의 오류는 주로 성격에 일치하지 않는 전략 때문이었으며, 의도된 성격과의 정합성이 더 높았다.
- 강건성 분석은 특히 MultiAgent-4가 더 큰 비율의 시뮬레이션에서 완전하고 성격 일치하는 전략을 산출함을 보여주었다(최대 87.5%).
- 본 연구는 멀티 에이전트 LLM 아키텍처가 더 복잡한 인간의 전략적 행동을 더 잘 반영할 수 있으며 정책이나 인터페이스 효과를 탐구하는 설계자들에게 도움을 줄 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.