QUICK REVIEW

[논문 리뷰] Learning Social Conventions in Markov Games.

Adam Lerer, Alexander Peysakhovich|arXiv (Cornell University)|2018. 06. 26.

Opinion Dynamics and Social Influence인용 수 10

한 줄 요약

이 논문은 다중 에이전트 마르코프 게임에서 사회적 관례를 학습할 수 있도록, 자기장연습 학습에 모방 학습을 통합한 강화 학습 프레임워크를 제안한다. 훈련 중에 사회적 행동의 제한된 관찰을 활용함으로써, 표준 독립적 다중 에이전트 강화 학습이 정확한 관례를 찾지 못하는 환경에서도 테스트 시점에 호환 가능한 균형에 수렴할 가능성이 크게 향상된다.

ABSTRACT

Social conventions - arbitrary ways to organize group behavior - are an important part of social life. Any agent that wants to enter an existing society must be able to learn its conventions (e.g. which side of the road to drive on, which language to speak) from relatively few observations or risk being unable to coordinate with everyone else. We consider the game theoretic framework of David Lewis which views the selection of a social convention as the selection of an equilibrium in a coordination game. We ask how to construct reinforcement learning based agents that can solve the convention learning task in the self-play paradigm: at training time the agent has access to a good model of the environment and a small amount of observations about how individuals in society act. The agent then has to construct a policy that is compatible with the test-time social convention. We study three environments from the literature which have multiple conventions: traffic, communication, and risky coordination. In each of these we observe that adding a small amount of imitation learning during self-play training greatly increases the probability that the strategy found by self-play fits well with the social convention the agent will face at test time. We show that this works even in an environment where standard independent multi-agent RL very rarely finds the correct test-time equilibrium.

연구 동기 및 목표

에이전트가 특정 도로 오른쪽 주행과 같이 임의의 협력 규칙인 사회적 관례를 사회적 행동의 제한된 관찰만으로 어떻게 학습할 수 있는지에 도전하는 것.
자기장연습과 모방 학습을 결합하면 훈련된 자기장연습 에이전트가 테스트 시점에 정확한 사회적 관례에 맞출 가능성이 향상되는지 조사하는 것.
다중 균형이 존재하는 환경, 즉 교통, 의사소통, 위험 수반 협력 게임에서 이 방법을 평가하는 것.
이 방법이 표준 독립적 다중 에이전트 강화 학습보다 정확한 테스트 시점 균형을 찾는 데 뛰어나다는 것을 입증하는 것.
사회적 행동에 대한 소량의 관찰 데이터만으로도 자기장연습에서의 관례 학습이 크게 향상될 수 있음을 보여주는 것.

제안 방법

소량의 관찰된 사회적 행동에서 유도된 모방 학습을 통합한 수정된 학습 목표를 사용하는 자기장연습 훈련 방법.
에이전트는 자기장연습 강화 학습과 사회적 관례에서 관측된 궤적에 대한 행동 클로닝의 조합을 통해 훈련된다.
모방 구성 요소는 해당 행동이 개별적으로 최적은 아니더라도 사회 내 개인의 관찰된 행동 패턴을 따라하도록 정책을 유도한다.
프레임워크는 교통 협력, 언어 기반 의사소통, 위험 수반 협력 게임의 세 가지 벤치마크 환경에 적용된다.
훈련 과정은 최종 정책이 자기장연습에서 효과적이기만 한 것이 아니라 테스트 시점의 사회적 관례와도 호환되도록 보장한다.
이 방법은 정확한 균형에 대한 사전 지식이 필요로 하지 않으며, 관찰 데이터에서 관례를 유추하도록 학습한다.

실험 결과

연구 질문

RQ1자기장연습과 모방 학습을 결합하면, 자기장연습 훈련된 에이전트가 테스트 시점에 정확한 사회적 관례를 채택할 확률이 향상되는가?
RQ2표준 독립적 다중 에이전트 강화 학습이 자주 정확한 관례에 수렴하지 못하는 다중 균형이 존재하는 환경에서 이 방법의 효과는 어떠한가?
RQ3소량의 사회적 행동 관찰 데이터만으로도 순수 자기장연습에 비해 관례 학습이 크게 향상되는가?
RQ4어떤 유형의 협력 게임에서 모방 학습의 추가가 관례 일치도에 가장 큰 향상을 가져오는가?
RQ5이 방법은 교통 규칙, 언어 사용, 위험 협력과 같은 다양한 사회적 관례 작업 간에 일반화 가능한가?

주요 결과

자기장연습 훈련 중에 모방 학습을 추가함으로써, 세 가지 환경 전반에서 학습된 정책이 테스트 시점 사회적 관례와 일치할 확률이 크게 향상된다.
표준 독립적 다중 에이전트 강화 학습이 자주 정확한 균형에 도달하지 못하는 위험 수반 협력 게임에서는, 제안된 방법이 정확한 관례에 성공적으로 수렴한다.
관찰된 사회적 관례와의 호환성이 매우 높아, 사용 가능한 행동 시연 수가 소량이어도 성립한다.
모방 학습의 통합은 순수 자기장연습에 비해 더 빠른 수렴과 더 안정적인 정책 학습을 이끈다.
모든 평가된 환경에서 기준 독립적 다중 에이전트 강화 학습보다 성능이 뛰어나며, 특히 균형 다수성 문제가 높은 환경에서 두드러진다.
결과는 사회적 행동에 대한 관찰 데이터만으로도 명시적 보상 설계 없이도 에이전트가 사회적으로 호환 가능한 균형으로 유도될 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.