QUICK REVIEW

[논문 리뷰] Inequity aversion improves cooperation in intertemporal social dilemmas

Edward Hughes, Joel Z. Leibo|arXiv (Cornell University)|2018. 03. 23.

Experimental Behavioral Economics Studies인용 수 76

한 줄 요약

저자들은 불평등 회피 선호를 다중 에이전트 강화학습의 마르코프 게임으로 확장하고, 유리한 불평등 회피가 시차가 있는 사회적 딜레마에서 협력을 촉진하는 반면, 불리한 불평등 회피는 특정 설정에서 처벌을 통해 도움을 준다.

ABSTRACT

Groups of humans are often able to find ways to cooperate with one another in complex, temporally extended social dilemmas. Models based on behavioral economics are only able to explain this phenomenon for unrealistic stateless matrix games. Recently, multi-agent reinforcement learning has been applied to generalize social dilemma problems to temporally and spatially extended Markov games. However, this has not yet generated an agent that learns to cooperate in social dilemmas as humans do. A key insight is that many, but not all, human individuals have inequity averse social preferences. This promotes a particular resolution of the matrix game social dilemma wherein inequity-averse individuals are personally pro-social and punish defectors. Here we extend this idea to Markov games and show that it promotes cooperation in several types of sequential social dilemma, via a profitable interaction with policy learnability. In particular, we find that inequity aversion improves temporal credit assignment for the important class of intertemporal social dilemmas. These results help explain how large-scale cooperation may emerge and persist.

연구 동기 및 목표

정적 매트릭스 게임을 넘어 시간적으로 확장된 사회적 딜레마에서 협력 연구를 고취한다.
다중 에이전트 RL 설정에서 순차적 마르코프 게임으로 불공정 회피 선호를 일반화한다.
불공정 회피가 학습 및 정책 형성에 미치는 영향을 조사하여 협력을 촉진한다.
불공정 회피가 시간적 크레딧 할당과 협력적 행동의 출현에 어떤 영향을 미치는지 탐구한다.

제안 방법

모형은 부분 관찰 가능 마르코프 게임으로, 여러 에이전트가 각각의 관찰과 보상에 의해 독립적으로 학습한다.
각 에이전트의 정책 학습을 위해 신경망과 함께 비동기식 Advantage Actor-Critic (A3C)를 사용한다.
순차적 설정에서 불공정 회피를 구현하기 위해 플레이어별 보상의 시간적 평활화(내재 보상)를 도입한다.
Fehr–Schmidt 불공정 회피 모델을 마르코프 게임에 확장하고, 불리한 및 유리한 불공정 회피에 대한 매개변수를 도입한다.
사실 기반 Schelling 다이어그램과 두 개의 gridworld 게임(Cleanup 및 Harvest)을 사용하여 사회적 딜레마로 환경을 검증한다.
간단한 2플레이어 설정에서 불공정 회피 행동을 보여주기 위해 두 가지 추가 게임 (Dictate apples, Give apples, Take apples)을 검토한다.

실험 결과

연구 질문

RQ1불공정 회피 선호를 무상태(stateless) 매트릭스 게임에서 순차적 다중 에이전트 마르코프 게임으로 확장할 수 있는가?
RQ2유리한 및 불리한 불공정 회피가 시차가 있는 사회적 딜레마에서 협력을 촉진하는가, 어떤 조건에서인가?
RQ3불공정 회피가 다중 에이전트 RL의 시간적 크레딧 할당 및 학습 역학에 어떤 영향을 미치는가?
RQ4특정 환경(공공재 vs. 공유자원)이 불공정 회피 인센티브에 차별적으로 영향을 받는가?

주요 결과

유리한 불공정 회피는 Cleanup 공공재 게임에서 집단 성과와 협력을 향상시키고, Harvest에서도 시간적 크레딧 할당을 개선하여 도움을 준다.
불리한 불공정 회피는 처벌과 인센티브의 타이밍을 통해 Harvest 공유자원 게임에서 협력을 뒷받침하며, 이 특성을 보이는 단일 에이전트가 있어도 마찬가지이다.
기본 A3C 에이전트는 사회적 혜택을 달성하지 못하는 반면, 불공정 회피 에이전트는 특정 설정에서 협력 및 지속가능성과 같은 사회적 지표가 향상된다.
불공정 회피를 위한 내재 보상의 지연은 그 효과를 감소시키며, 협력적 정책 학습에서 시기적절한 내재 피드백의 역할을 강조한다.
효과는 과업-조건적이다: 유리한 불공정 회피는 특히 공공재 딜레마에 효과적이고, 불리한 불공정 회피는 공유 자원 딜레마에서 더 강하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.