QUICK REVIEW

[논문 리뷰] Maintaining cooperation in complex social dilemmas using deep reinforcement learning

Adam Lerer, Alexander Peysakhovich|arXiv (Cornell University)|2017. 07. 04.

Evolutionary Game Theory and Cooperation참고 문헌 62인용 수 112

한 줄 요약

이 논문은 deep RL로 구축된 근사 Markov 티-포-탯 전략인 amTFT를 도입하여, exploiters나 단일 시도 테스트에 직면하더라도 Markov 사회적 딜레마에서 협력을 유지하도록 한다. amTFT는 수정된 자기 대결(self-play)을 통해 학습될 수 있으며 다양한 환경에서 협력을 견고하게 유지하는 것을 보여준다.

ABSTRACT

Social dilemmas are situations where individuals face a temptation to increase their payoffs at a cost to total welfare. Building artificially intelligent agents that achieve good outcomes in these situations is important because many real world interactions include a tension between selfish interests and the welfare of others. We show how to modify modern reinforcement learning methods to construct agents that act in ways that are simple to understand, nice (begin by cooperating), provokable (try to avoid being exploited), and forgiving (try to return to mutual cooperation). We show both theoretically and experimentally that such agents can maintain cooperation in Markov social dilemmas. Our construction does not require training methods beyond a modification of self-play, thus if an environment is such that good strategies can be constructed in the zero-sum case (eg. Atari) then we can construct agents that solve social dilemmas in this environment.

연구 동기 및 목표

Markov 2인 게임에서 협력 정책을 정의하고 형식화하며 사회적 딜레마가 발생하는 시점을 식별한다.
단일 테스트 게임 내에서 협력을 유지하는 실용적이고 확장 가능한 전략(amTFT)을 개발한다.
추가 분석적 기계 없이도 수정된 자기 대화를 통해 amTFT를 학습시킬 수 있음을 입증한다.
amTFT가 착취에 대해 견고하고 파트너의 협력을 유도하는 능력을 보여준다.

제안 방법

협력 및 위반 정책을 갖는 2인 Markov 게임으로 Markov 의사결정 프로세스를 일반화한다.
Q-함수 또는 롤아웃으로 계산된 per-step 차감(debit)에 따라 협력 정책과 위반 정책 사이를 전환하는 amTFT를 도입한다.
자가 플레이를 통해 이기적 대 협력 보상 일정으로 협력 정책과 위반 정책을 훈련한다.
위반을 감지하고 전환 규칙을 적용하기 위한 기억 기반 또는 요약 통계 접근법을 사용한다.
노이즈가 없는 경우 amTFT가 협력을 이끌어내는 조건을 나타내는 형식 정리를 제공한다.

실험 결과

연구 질문

RQ1단일 시점의 Markov 사회적 딜레마에서 근사 Markov 티-포-탯 전략이 협력을 유지할 수 있는가?
RQ2amTFT가 Markov 게임에서 비착취적이면서 타인의 협력을 유도하는 균형을 이룰 수 있는가?
RQ3깊은 RL 환경에서 수정된 자기 플레이를 통해 협력 및 위반 정책을 신뢰성 있게 학습할 수 있는가?
RQ4amTFT가 위반자 및 다른 협력적 혹은 자기중심적 전략에 대해 어떻게 수행하는가?
RQ5amTFT 접근법이 원시 픽셀 입력에서 학습하는 환경에서도 확장 가능한가?

주요 결과

amTFT는 자신과 협력하며 테스트된 다양한 환경에서 위반자에 의한 착취에 저항한다.
표준 자기 학습(Self-Play)은 위반 전략으로 수렴하는 경향이 있는 반면, amTFT는 착취에 대한 견고한 협력 행동을 달성한다.
amTFT는 파트너의 협력을 유도할 수 있어 두 에이전트의 장기 보상을 향상시킨다.
amTFT의 위반 단계는 유한하며 협력으로 되돌아가므로 처벌과 용행 사이의 실용적 균형을 제공한다.
가치 기반 차감(Q 함수를 통한)은 결과의 등가적 협력 정책에 대한 안정성을 제공한다.
코인즈와 PPD(픽셀 기반의 Atari 유사 설정을 포함) 실험은 Grim Trigger에 비해 amTFT가 협력 유지에 바람직하다는 것을 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.