QUICK REVIEW

[논문 리뷰] A Q-values Sharing Framework for Multiagent Reinforcement Learning under Budget Constraint

Changxi Zhu, Ho-fung Leung|arXiv (Cornell University)|2020. 11. 28.

Reinforcement Learning in Robotics참고 문헌 28인용 수 7

한 줄 요약

이 논문은 예산 제약 조건 하에서 협동적 다중에이전트 강화학습에 적합한 Partaker-Sharer Advising Framework(PSAF)를 제안한다. 여기서 에이전트들은 자신들의 자신감과 탐색 수준에 따라 동적으로 Q-값 요청 또는 공유를 결정한다. PSAF는 특히 통신 예산이 제한된 상황에서 타겟팅된 고신뢰도 Q-값 공유를 통해 빠른 수렴을 가능하게 하여, 행동 조언 방법과 다른 Q-값 공유 방법보다 뛰어난 성능을 보인다.

ABSTRACT

In teacher-student framework, a more experienced agent (teacher) helps accelerate the learning of another agent (student) by suggesting actions to take in certain states. In cooperative multiagent reinforcement learning (MARL), where agents need to cooperate with one another, a student may fail to cooperate well with others even by following the teachers' suggested actions, as the polices of all agents are ever changing before convergence. When the number of times that agents communicate with one another is limited (i.e., there is budget constraint), the advising strategy that uses actions as advices may not be good enough. We propose a partaker-sharer advising framework (PSAF) for cooperative MARL agents learning with budget constraint. In PSAF, each Q-learner can decide when to ask for Q-values and share its Q-values. We perform experiments in three typical multiagent learning problems. Evaluation results show that our approach PSAF outperforms existing advising methods under both unlimited and limited budget, and we give an analysis of the impact of advising actions and sharing Q-values on agents' learning.

연구 동기 및 목표

에이전트의 정책이 계속 변화하는 상황에서 행동 조언의 비효율성을 해결한다.
동적 환경와 정책 변화로 인해 행동 조언이 정책 지식을 효과적으로 전달하지 못하는 한계를 극복한다.
통신 예산 제약 조건 하에서 타겟팅된 Q-값 교환을 통해 더 빠른 학습을 가능하게 하는 지식 공유 메커니즘을 개발한다.
높은 자신감을 가진 유용한 Q-값만 공유하여 학습 효율성을 극대화하고 통신 오버헤드를 최소화한다.
특히 드물게 방문되는 상태에서 더 경험 많은 동료의 사전 학습된 Q-값을 활용하여 에이전트가 최적의 행동을 수행할 수 있도록 한다.

제안 방법

에이전트가 자신감과 탐색 수준에 따라 동적으로 요청자(partaker) 또는 공급자(sharer) 역할을 수행하도록 설정한다.
낮은 방문 빈도와 현재 Q-값에 대한 낮은 자신감을 기반으로 요청자가 Q-값을 요청할 시점을 결정하는 자신감 함수 Pask를 사용한다.
요청자와 공급자 각각에 대해 별도의 자신감 함수를 정의하여, 공유 또는 요청 전에 Q-값의 신뢰성을 평가한다.
공급자가 요청자보다 훨씬 더 자주 최대 Q-값을 갱신하도록 요구하여 고품질의 안정적인 Q-값 공유를 보장한다.
학습 과정 전반에 걸쳐 허용 가능한 Q-값 공유 상호작용 수가 제한된 예산 제약 메커니즘을 구현한다.
Q-값 공유를 Q-학습 업데이트 규칙에 통합하여, 요청자는 전체 정책 전이 없이도 공유된 Q-값을 직접 정책 학습에 활용할 수 있도록 한다.

실험 결과

연구 질문

RQ1무제한 및 제한된 통신 예산 조건 하에서, Q-값 공유가 협동적 다중에이전트 강화학습(MARL)에서 행동 조언보다 어떻게 성능이 뛰어나게 되는가?
RQ2예산 제약 조건 하에서 요청자는 언제 Q-값을 요청하고, 공급자는 언제 Q-값을 제공해야 하는가?
RQ3동적이고 상호 적응하는 에이전트가 존재하는 협동적 MARL 과제에서 Q-값 공유가 학습 시간을 단축하고 성능을 향상시킬 수 있는가?
RQ4Q-값에 대한 자신감이 다중에이전트 환경에서 지식 전이의 효과성에 어떤 영향을 미치는가?
RQ5일부 높은 자신감의 Q-값만 공유하는 것과 모든 Q-값을 공유하는 것의 학습 효율성과 수렴 속도에 미치는 영향은 어떠한가?

주요 결과

PSAF는 Predator-Prey, Half Field Offense, Spread Game 세 가지 벤치마크 과제에서 모두 행동 조언 방법보다 뚜렷이 뛰어난 성능을 보였으며, 특히 통신 예산이 제한된 상황에서 두각을 나타냈다.
통신 예산이 무제한일 경우, PSAF는 Half Field Offense 과제에서 최고의 Q-값 공유 방법인 AdhocTD-Q와 유사한 성능을 달성했다.
예산이 점점 줄어들수록 PSAF는 높은 성능를 유지하는 반면, 행동 조언 방법은 급격히 성능이 떨어져 통신 효율성이 뛰어나다는 것을 입증했다.
행동 조언의 성능는 예산 크기에 크게 의존하는 반면, PSAF는 매우 적은 공유 상호작용으로도 높은 성능를 달성한다.
요청자가 낮은 방문 빈도를 가지며 공급자가 높은 자신감을 가진 상태에서 Q-값을 공유할 경우, 학습에 간섭을 최소화하면서 가장 효과적인 공유가 이루어진다.
이 프레임워크는 드문 상태에서의 학습을 가속화하고, 다양한 경험 수준이나 다른 시간에 참여하는 에이전트가 존재하는 시스템에서 수렴 속도를 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.