[논문 리뷰] Robust Multi-Agent Reinforcement Learning with State Uncertainty
이 논문은 상태 교란 적대자를 가진 마르코프 게임을 정의하고, 강건한 균형의 존재를 증명하며, 상태 불확실성 하에서 MARL을 위한 수렴 보장이 있는 RMAQ와 RMAAC 알고리즘을 제안한다.
In real-world multi-agent reinforcement learning (MARL) applications, agents may not have perfect state information (e.g., due to inaccurate measurement or malicious attacks), which challenges the robustness of agents' policies. Though robustness is getting important in MARL deployment, little prior work has studied state uncertainties in MARL, neither in problem formulation nor algorithm design. Motivated by this robustness issue and the lack of corresponding studies, we study the problem of MARL with state uncertainty in this work. We provide the first attempt to the theoretical and empirical analysis of this challenging problem. We first model the problem as a Markov Game with state perturbation adversaries (MG-SPA) by introducing a set of state perturbation adversaries into a Markov Game. We then introduce robust equilibrium (RE) as the solution concept of an MG-SPA. We conduct a fundamental analysis regarding MG-SPA such as giving conditions under which such a robust equilibrium exists. Then we propose a robust multi-agent Q-learning (RMAQ) algorithm to find such an equilibrium, with convergence guarantees. To handle high-dimensional state-action space, we design a robust multi-agent actor-critic (RMAAC) algorithm based on an analytical expression of the policy gradient derived in the paper. Our experiments show that the proposed RMAQ algorithm converges to the optimal value function; our RMAAC algorithm outperforms several MARL and robust MARL methods in multiple multi-agent environments when state uncertainty is present. The source code is public on \url{https://github.com/sihongho/robust_marl_with_state_uncertainty}.
연구 동기 및 목표
- 오류나 공격으로 인해 에이전트가 불완전한 상태 정보를 갖는 상황에서 MARL의 강건성에 대한 동기를 부여한다.
- 가장 악의적인 상태 교란에 의한 MARL을 상태 교란 적대자를 갖는 마르코프 게임(MG-SPA)으로 공식화한다.
- 해결 아이디어로서 강건 균형(RE)을 정의하고 그 존재성과 성질을 연구한다.
- RE를 찾기 위한 수렴 보장을 갖는 학습 알고리즘(RMAQ 및 RMAAC)을 개발한다.
- 상태 교란 하에서 다중 에이전트 환경에서 강건성과 효과를 경험적으로 검증한다.
제안 방법
- 진짜 상태를 교란된 상태로 매핑하는 교란 함수 f와 상태 교란 적대자를 각 에이전트와 짝지어 MG-SPA를 도입한다.
- 정책과 적대자 하에서 가치 함수 v와 q를 정의하고 MG-SPA에 대한 벨만 방정식을 확립한다.
- 에이전트들이 적대자와 다른 에이전트들에 대해 최적화하는 Nash 균형과 유사한 해로서 강건 균형(RE)을 정의한다.
- 최소-최대 연산자의 수축성 성질과 함수 공간의 완전성을 보여 최적 가치 함수의 존재성과 유일성을 보장한다.
- MG-SPA에 연결된 확장형 게임을 구성하고 고정점 논증을 적용하여 RE의 존재가 도출된다는 것을 보인다.
- 고차원 공간에 대한 수렴 보장을 갖는 강건 Q-러닝(RMAQ)과 강건한 액터-크리틱(RMAAC)을 제시한다.
실험 결과
연구 질문
- RQ1MG-SPA에서 상태 교란 적대자를 갖는 마르코프 게임에서 강건 균형의 존재를 보장하는 조건은 무엇인가?
- RQ2각 에이전트가 최악의 상태 교란에 직면할 때 MARL을 위한 강건한 정책은 어떻게 계산할 수 있는가?
- RQ3MG-SPA에 대해 수렴하는 학습 알고리즘이 존재하는가, 그리고 상태 불확실성 하에서 그것들이 기준선과 비교하여 어떠한가?
- RQ4역사 의존적 정책의 도입이 MG-SPA의 강건 균형에 어떤 영향을 미치는가?
- RQ5이질적 교란(f와 ε가 다른 것들)을 이론적 보장을 유지하면서 도입할 수 있는가?
주요 결과
- MG-SPA는 주어진 가정하에 강건 균형을 허용하고 최적 가치 함수가 존재하며 유일하다.
- 최소-최대 벨만 방정식은 강건 최적값과 RE 정책을 특징지운다.
- RMAQ는 MG-SPA 설정에서 최적 가치 함수로 수렴한다.
- RMAAC은 고차원 상태-행동 공간을 효과적으로 처리하며 실험에서 상태 교란 하에 기준선보다 우수하다.
- 프레임워크는 이질적인 에이전트/적대자 및 역사 의존적 정책으로 일반화되며 보장이 유지된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.