QUICK REVIEW

[논문 리뷰] AWESOME: A General Multiagent Learning Algorithm that Converges in Self-Play and Learns a Best Response Against Stationary Opponents

Vincent Conitzer, Tüomas Sandholm|arXiv (Cornell University)|2003. 07. 01.

Reinforcement Learning in Robotics참고 문헌 14인용 수 36

한 줄 요약

AWESOME는 모든 유한 반복 게임에서 자가 대결 시 나시 균형에 수렴하는 일반적인 다중에이전트 학습 알고리즘이며, 정적 상대방에 대해 최적의 플레이를 보장한다. 이 알고리즘은 감지된 정적 상대 전략에 적응하지만, 비정적 상태가 감지되면 관측된 행동만을 사용하고 무한소형 업데이트나 전략 관측 없이 사전에 계산된 균형으로 되돌린다.

ABSTRACT

A satisfactory multiagent learning algorithm should, {\em at a minimum}, learn to play optimally against stationary opponents and converge to a Nash equilibrium in self-play. The algorithm that has come closest, WoLF-IGA, has been proven to have these two properties in 2-player 2-action repeated games--assuming that the opponent's (mixed) strategy is observable. In this paper we present AWESOME, the first algorithm that is guaranteed to have these two properties in {\em all} repeated (finite) games. It requires only that the other players' actual actions (not their strategies) can be observed at each step. It also learns to play optimally against opponents that {\em eventually become} stationary. The basic idea behind AWESOME ({\em Adapt When Everybody is Stationary, Otherwise Move to Equilibrium}) is to try to adapt to the others' strategies when they appear stationary, but otherwise to retreat to a precomputed equilibrium strategy. The techniques used to prove the properties of AWESOME are fundamentally different from those used for previous algorithms, and may help in analyzing other multiagent learning algorithms also.

연구 동기 및 목표

정적 상대방에 대해 최적의 플레이를 보장하는 다중에이전트 학습 알고리즘을 개발하는 것.
모든 유한 반복 게임에서 자가 대결 시 나시 균형으로 수렴하는 것을 보장하는 것.
이전 알고리즘에서 요구하는 제약 조건(예: 상대 전략 관측 가능, 무한소형 업데이트)을 제거하는 것.
임의의 유한한 수의 에이전트와 행동에 대해 작동하는 일반 목적 알고리즘을 설계하는 것.
비정적 환경에서 강건한 다중에이전트 학습을 위한 이론적 기반 프레임워크를 제공하는 것.

제안 방법

AWESOME는 두 개의 귀무가설을 유지한다: 다른 이들이 사전에 계산된 균형을 플레이하고 있거나, 그들의 전략이 정적일 것이라는 가설.
증가하는 에포크 동안 행동 시퀀스에 대한 통계적 가설 검정을 통해 비정적 상태를 탐지한다.
어느 한 가설이 기각되면 AWESOME는 자신의 전략을 초기화하고 사전에 계산된 균형에서 다시 학습을 시작한다.
알고리즘은 에포크 길이를 동적으로 늘리고 기각 기준을 더 엄격하게 하여 수렴을 보장한다.
자기 인식 기능을 통해 자신의 행동이 다른 이들에게 비정적 상태를 암시할 수 있을 경우에 다시 시작한다.
이 방법은 추론된 상대 전략이나 기울기 기반 업데이트가 아닌 관측된 행동만을 기반으로 한다.

실험 결과

연구 질문

RQ1모든 유한 반복 게임에서 자가 대결 시 나시 균형으로 수렴하는 다중에이전트 학습 알고리즘이 존재할 수 있는가?
RQ2이러한 알고리즘이 정적 상대방에 대해 최적의 플레이를 학습할 수 있는가?
RQ3상대 전략 관측이나 무한소형 업데이트를 요구하지 않고도 두 성질을 동시에 달성할 수 있는가?
RQ4관측된 행동만을 사용하여 상대 행동의 비정적 상태를 탐지할 수 있는가?
RQ5적응적인 상대방이 존재할 때에도 알고리즘이 나시 균형으로 수렴하는 데 필요한 조건은 무엇인가?

주요 결과

AWESOME는 수많은 에이전트나 행동이 존재하더라도, 모든 유한 반복 게임에서 자가 대결 시 나시 균형으로 수렴하는 것으로 증명된 첫 번째 알고리즘이다.
실제로 관측된 행동만으로도 정적 또는 점차 정적 방향으로 수렴하는 상대방에 대해 최적의 플레이를 보장한다.
알고리즘은 상대 전략의 지식이 필요로 하지 않으며, 무한소형 기울기 업데이트도 사용하지 않는다.
관측된 행동 시퀀스에 대한 적응적 가설 검정과 증가하는 에포크 길이를 통해 수렴이 달성된다.
가설 검정이 우연의 원인로 정적 상태를 잘못 기각할 경우, AWESOME는 사전에 계산된 균형과 다른 나시 균형으로 수렴할 수 있다.
AWESOME의 수렴성을 뒷받침하는 이론적 프레임워크는 이전 접근 방식과 근본적으로 다름으로써, 다중에이전트 학습 알고리즘 분석을 위한 새로운 도구를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.