QUICK REVIEW

[논문 리뷰] Can Large Language Model Agents Simulate Human Trust Behavior?

Chengxing Xie, Canyu Chen|arXiv (Cornell University)|2024. 02. 07.

Topic Modeling인용 수 6

한 줄 요약

본 논문은 LLM 에이전트가 신뢰 게임에서 신뢰 행동을 보이며 인간 신뢰와 밀접하게 정렬될 수 있음을 보여주고, 인간 신뢰의 잠재적 시뮬레이션을 가능하게 하는 한편 편향과 조작에 취약함을 드러낸다.

ABSTRACT

Large Language Model (LLM) agents have been increasingly adopted as simulation tools to model humans in social science and role-playing applications. However, one fundamental question remains: can LLM agents really simulate human behavior? In this paper, we focus on one critical and elemental behavior in human interactions, trust, and investigate whether LLM agents can simulate human trust behavior. We first find that LLM agents generally exhibit trust behavior, referred to as agent trust, under the framework of Trust Games, which are widely recognized in behavioral economics. Then, we discover that GPT-4 agents manifest high behavioral alignment with humans in terms of trust behavior, indicating the feasibility of simulating human trust behavior with LLM agents. In addition, we probe the biases of agent trust and differences in agent trust towards other LLM agents and humans. We also explore the intrinsic properties of agent trust under conditions including external manipulations and advanced reasoning strategies. Our study provides new insights into the behaviors of LLM agents and the fundamental analogy between LLMs and humans beyond value alignment. We further illustrate broader implications of our discoveries for applications where trust is paramount.

연구 동기 및 목표

행동경제학 프레임워크 하에서 LLM 에이전트가 신뢰 게임에서 신뢰 행동을 나타내는지 조사한다.
주요 요인과 시간에 걸쳐 에이전트(LLM) 신뢰와 인간 신뢰 간의 행동적 정렬을 평가한다.
인구통계학적 편향과 인간과 에이전트 간 신뢰 차이를 포함해 에이전트 신뢰의 고유 속성을 식별한다.
추론 전략과 외부 프롬프트가 에이전트 신뢰에 미치는 영향과 인간-에이전트 협업에 대한 시사점을 탐구한다.

제안 방법

신뢰 게임에서 의사결정 추론을 드러내기 위해 LLM 에이전트를 신념-욕구-의도(BDI) 에이전트로 모델링한다.
다양한 프롬프트와 53가지 생성 페르소나를 사용하여 에이전트의 인간과 유사한 변동성을 시뮬레이션한다.
초기 이체 금액(신뢰)과 BDI 추론 출력과의 일관성(합리성)을 통해 신뢰 게임 결과를 평가한다.
행동경제학의 인간 벤치마크와 비교하여 에이전트 신뢰의 행동 정렬을 정의한다.
인구통계, 수탁자 신원(에이전트 대 인간), 명시적 지시 및 제로샷 CoT를 조작하여 에이전트 신뢰의 고유 속성을 연구한다.

실험 결과

연구 질문

RQ1LLM 에이전트가 양의 이체로 측정되는 신뢰 행동과 BDI 추론의 일관성으로 측정되듯 신뢰 게임에서 신뢰 행동을 보이는가?
RQ2상호호혜 기대, 위험 인식, 이타적 선호에 걸쳐 에이전트 신뢰가 인간 신뢰와 어떻게 정렬되는가?
RQ3인구통계학적 변이, 수탁자 신원(에이전트 vs 인간), 명시적 조작 및 추론 전략 하에서 에이전트 신뢰의 어떤 고유한 속성이 나타나는가?

주요 결과

LLM 에이전트는 일반적으로 신뢰 행동을 보이고 신뢰 게임에서 양의 금액을 전송하며, BDI 출력은 최종 결정과 일치한다.
에이전트 신뢰는 상호호혜 기대, 위험 인식, 이타적 선호에 걸쳐 인간 신뢰와 높은 행동적 정렬을 보일 수 있으며, 특히 GPT-4와 같은 고급 모델에서 두드러진다.
반복 상호작용에서의 신뢰 역학은 GPT-4가 GPT-3.5보다 인간과 유사한 패턴을 더 일관되게 보이며, 이는 인지 능력이 정렬에 영향을 미침을 시사한다.
에이전트 신뢰는 인구통계학적 편향을 나타내며(일부 모델에서 여성 수탁자에게 더 높은 이체 등), 인간을 에이전트보다 더 신뢰하는 경향이 있다.
신뢰에 대한 명시적 조작은 일반적으로 신뢰를 높이기보다 약화시키는 것이 더 쉽고, 제로샷 CoT 추론은 신뢰 결정에 영향을 미칠 수 있으며 모델에 따라 효과가 다르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.