QUICK REVIEW

[논문 리뷰] "Other-Play" for Zero-Shot Coordination

Hengyuan Hu, Adam Lerer|arXiv (Cornell University)|2020. 03. 06.

Reinforcement Learning in Robotics참고 문헌 52인용 수 33

한 줄 요약

이 논문은 Other-Play (OP)를 소개합니다. 이는 파트너 정책의 대칭 파손에 대한 강건성을 최적화하여 제로샷 협력을 향상시키는 대칭 기반 메타 학습 접근법으로, Hanabi와 레버 게임에서 시연됩니다.

ABSTRACT

We consider the problem of zero-shot coordination - constructing AI agents that can coordinate with novel partners they have not seen before (e.g. humans). Standard Multi-Agent Reinforcement Learning (MARL) methods typically focus on the self-play (SP) setting where agents construct strategies by playing the game with themselves repeatedly. Unfortunately, applying SP naively to the zero-shot coordination problem can produce agents that establish highly specialized conventions that do not carry over to novel partners they have not been trained with. We introduce a novel learning algorithm called other-play (OP), that enhances self-play by looking for more robust strategies, exploiting the presence of known symmetries in the underlying problem. We characterize OP theoretically as well as experimentally. We study the cooperative card game Hanabi and show that OP agents achieve higher scores when paired with independently trained agents. In preliminary results we also show that our OP agents obtains higher average scores when paired with human players, compared to state-of-the-art SP agents.

연구 동기 및 목표

테스트 시점에 파트너가 보이지 않는 상태에서 제로샷 협력을 고무한다.
두 파트너 간의 대칭 파손에 대한 강건성을 최대화하도록 OP를 제안한다.
OP의 이론적 특성과 이를 대칭-불변 메타 균형으로 보인다.
협력 작업에서 심층 RL로 OP를 시연하고 자기학습과 비교한다.
Hanabi에서 AI 에이전트 및 인간과의 OP 성능을 평가한다.

제안 방법

상태, 동작, 관찰에 대해 Dec-POMDP를 불변으로 남기는 쌍대 사상 Phi를 정의한다.
OP 목표를 형식화한다: 파트너의 대칭적 등가 정책과 매칭될 때의 기대 수익을 최대화: J_OP = E_{phi ~ Phi}[J(pi^1, phi(pi^2))].
OP 정책이 대칭 적용된 정책들 pi_Phi의 균일 혼합에 해당함을 증명한다.
학습 중 파트너 정책을 Phi에서 균등하게 샘플링된 phi로 무작위화하여(도메인 무작위화) 심층 RL에서 OP를 구현한다.
OP가 어떤 SP 기반 최적화와도 호환되며 SP를 순열-불변 균형으로 확장함을 보인다.

실험 결과

연구 질문

RQ1협력적 다에이전트 설정에서 이전에 보지 못한 파트너와의 강건한 협력을 어떻게 달성할 수 있는가?
RQ2대칭성을 고려하여 표준 자기 학습을 넘는 제로샷 협력을 향상시킬 수 있는가?
RQ3Other-Play의 이론적 특성과 균형 보장은 무엇인가?
RQ4Hanabi와 같이 AI와 인간이 참여하는 복잡한 부분 관찰 작업에서 OP의 성능은 어떠한가?

주요 결과

Method	Cross-Play	Cross-Play(*)	Self-Play
SAD	2.52 ± 0.34	3.02 ± 0.39	23.97 ± 0.04
SAD + OP	15.32 ± 0.65	18.28 ± 0.36	23.93 ± 0.02
SAD + AUX	17.65 ± 0.69	21.09 ± 0.18	24.09 ± 0.03
SAD + AUX + OP	22.07 ± 0.11	22.49 ± 0.18	24.06 ± 0.02

OP는 독립적으로 학습된 에이전트와 페어링될 때 표준 SP에 비해 더 높은 제로샷 협력을 달성한다.
레버 게임에서 OP는 학습 및 테스트 모두에서 고유한 0.9 보상 옵션으로 수렴하며 SP와 달리 그렇지 않다.
Hanabi에서 OP로의 교차 플레이 점수가 향상되며, 특히 더 단순한 모델(SAD 변형)에서 두드러진다.
SAD + AUX + OP가 실험된 구성 중 가장 높은 교차 플레이 성능을 보인다.
인간이 OP 봇과 페어링되었을 때 SP 봇과 비교해 평균 점수가 더 높았다(15.75 대 9.15).
OP는 SP 에이전트에서 관찰되었던 비인간적 관습의 발생을 줄이고 더 해석 가능한 협력을 유도한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.