Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Agent Adversarial Inverse Reinforcement Learning

Lantao Yu, Jiaming Song|arXiv (Cornell University)|2019. 07. 30.
Anomaly Detection Techniques and Applications인용 수 45
한 줄 요약

MA-AIRL은 전문가 시연으로부터 보상 함수와 정책을 학습하는 Markov 게임용 확장 가능한 MaxEnt IRL 프레임워크로, 로지스틱 확률적 최적 반응 균형 및 적대적 학습을 사용합니다.

ABSTRACT

Reinforcement learning agents are prone to undesired behaviors due to reward mis-specification. Finding a set of reward functions to properly guide agent behaviors is particularly challenging in multi-agent scenarios. Inverse reinforcement learning provides a framework to automatically acquire suitable reward functions from expert demonstrations. Its extension to multi-agent settings, however, is difficult due to the more complex notions of rational behaviors. In this paper, we propose MA-AIRL, a new framework for multi-agent inverse reinforcement learning, which is effective and scalable for Markov games with high-dimensional state-action space and unknown dynamics. We derive our algorithm based on a new solution concept and maximum pseudolikelihood estimation within an adversarial reward learning framework. In the experiments, we demonstrate that MA-AIRL can recover reward functions that are highly correlated with ground truth ones, and significantly outperforms prior methods in terms of policy imitation.

연구 동기 및 목표

  • 다기관 시스템에서의 보상 설계의 어려움과 이러한 환경에서의 IRL의 잘 정의되지 않은 문제를 동기 부여합니다.
  • 다기관 IRL에 적합한 새로운 균형 개념(로지스틱 확률적 최적 반응 균형, LSBRE)을 도입합니다.
  • LSBRE를 MaxEnt RL과 연결하고 학습의 실현 가능성을 위한 최대 의사 우도 추정치를 사용하여 MA-AIRL을 개발합니다.
  • 가능한 기반 형성(potential-based shaping)에 따른 보상 식별 가능성을 완화하고 보상 모호성을 줄이기 위해 보상 회복과 정책 모방을 가능하게 하는 실용적 적대적 IRL 프레임워크를 제공합니다.

제안 방법

  • LSBRE를 각 기 agent가 암묵적으로 최적 응답하는 확률적_entropy 정규화된 방식으로 시계열적으로 의존하는 joint 정책의 수열로 정의합니다.
  • LSBRE가 에너지 기반(MaxEnt) 형식으로 특징지어질 수 있는 궤적 분포를 유도함을 보입니다.
  • 다중 에이전트 설정에서 학습 가능성을 가능하게 하는 에이전트별 조건부 정책들에 대해 최적화하는 최대 의사 우도 추정치를 도출합니다.
  • 보상을 추정하는 판별기와 중요 가중치 분할 함수 추정을 위한 적응 샘플러를 매개변수화한 적대적 학습 프레임워크로 MA-AIRL을 구성합니다.
  • 적응 샘플러 q_theta와 구조화된 f_{omega,phi}를 가진 보상 추정기 g_omega를 사용하여 잠재적 기반 형성에 따른 보상을 회복하되 보상 모호성을 완화합니다.
  • 정책과 실제와 같은 보상을 회복하기 위한 판별기와 생성기 업데이트를 번갈아 수행하는 알고리즘(Algorithm 1)을 제공합니다.

실험 결과

연구 질문

  • RQ1MA-AIRL이 다기관 Markov 게임에서 시演에서 각 에이전트의 전문가 정책을 효율적으로 회복하여 정책 모방이 가능한가요?
  • RQ2MA-AIRL이 LSBRE 하에서 시演을 합리화하는 근본 보상 함수를 정확히 회복할 수 있는가요?
  • RQ3MA-AIRL은 협력 및 경쟁 작업에서 이전의 다기관 모방 학습 방법(예: MA-GAIL)과 어떻게 비교되나요?
  • RQ4MA-AIRL은 보상 식별성을 유지하면서 알려지지 않은 다이나믹스의 고차원 상태-행동 공간으로 확장 가능한가요?

주요 결과

  • MA-AIRL은 실험에서 지상 진실과 크게 상관된 보상 함수를 회복합니다.
  • MA-AIRL은 협력적 및 경쟁적 작업이 혼합된 환경에서 최첨단 다기관 모방 학습 기준선보다 정책을 크게 능가하는 학습을 보여줍니다.
  • MA-AIRL은 LSBRE 프레임워크와 의사 우도 추정을 통해 MaxEnt IRL 및 적대적 학습을 Markov 게임으로 확장합니다.
  • 판별기 출력이 보상 추정과 정렬되며 적응 샘플러 q_theta가 전문가 정책을 추정하여 안정적인 학습을 가능하게 합니다.
  • MA-AIRL은 이전의 표 기반 또는 단순 구조 IRL 방법이 실패하는 고차원 상태-행동 공간 및 알려지지 않은 다이나믹스에서도 확장성을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.