QUICK REVIEW

[논문 리뷰] Multi-Agent Adversarial Inverse Reinforcement Learning

Lantao Yu, Jiaming Song|arXiv (Cornell University)|2019. 07. 30.

Anomaly Detection Techniques and Applications인용 수 45

한 줄 요약

MA-AIRL은 전문가 시연으로부터 보상 함수와 정책을 학습하는 Markov 게임용 확장 가능한 MaxEnt IRL 프레임워크로, 로지스틱 확률적 최적 반응 균형 및 적대적 학습을 사용합니다.

ABSTRACT

Reinforcement learning agents are prone to undesired behaviors due to reward mis-specification. Finding a set of reward functions to properly guide agent behaviors is particularly challenging in multi-agent scenarios. Inverse reinforcement learning provides a framework to automatically acquire suitable reward functions from expert demonstrations. Its extension to multi-agent settings, however, is difficult due to the more complex notions of rational behaviors. In this paper, we propose MA-AIRL, a new framework for multi-agent inverse reinforcement learning, which is effective and scalable for Markov games with high-dimensional state-action space and unknown dynamics. We derive our algorithm based on a new solution concept and maximum pseudolikelihood estimation within an adversarial reward learning framework. In the experiments, we demonstrate that MA-AIRL can recover reward functions that are highly correlated with ground truth ones, and significantly outperforms prior methods in terms of policy imitation.

연구 동기 및 목표

다기관 시스템에서의 보상 설계의 어려움과 이러한 환경에서의 IRL의 잘 정의되지 않은 문제를 동기 부여합니다.
다기관 IRL에 적합한 새로운 균형 개념(로지스틱 확률적 최적 반응 균형, LSBRE)을 도입합니다.
LSBRE를 MaxEnt RL과 연결하고 학습의 실현 가능성을 위한 최대 의사 우도 추정치를 사용하여 MA-AIRL을 개발합니다.
가능한 기반 형성(potential-based shaping)에 따른 보상 식별 가능성을 완화하고 보상 모호성을 줄이기 위해 보상 회복과 정책 모방을 가능하게 하는 실용적 적대적 IRL 프레임워크를 제공합니다.

제안 방법

LSBRE를 각 기 agent가 암묵적으로 최적 응답하는 확률적_entropy 정규화된 방식으로 시계열적으로 의존하는 joint 정책의 수열로 정의합니다.
LSBRE가 에너지 기반(MaxEnt) 형식으로 특징지어질 수 있는 궤적 분포를 유도함을 보입니다.
다중 에이전트 설정에서 학습 가능성을 가능하게 하는 에이전트별 조건부 정책들에 대해 최적화하는 최대 의사 우도 추정치를 도출합니다.
보상을 추정하는 판별기와 중요 가중치 분할 함수 추정을 위한 적응 샘플러를 매개변수화한 적대적 학습 프레임워크로 MA-AIRL을 구성합니다.
적응 샘플러 q_theta와 구조화된 f_{omega,phi}를 가진 보상 추정기 g_omega를 사용하여 잠재적 기반 형성에 따른 보상을 회복하되 보상 모호성을 완화합니다.
정책과 실제와 같은 보상을 회복하기 위한 판별기와 생성기 업데이트를 번갈아 수행하는 알고리즘(Algorithm 1)을 제공합니다.

실험 결과

연구 질문

RQ1MA-AIRL이 다기관 Markov 게임에서 시演에서 각 에이전트의 전문가 정책을 효율적으로 회복하여 정책 모방이 가능한가요?
RQ2MA-AIRL이 LSBRE 하에서 시演을 합리화하는 근본 보상 함수를 정확히 회복할 수 있는가요?
RQ3MA-AIRL은 협력 및 경쟁 작업에서 이전의 다기관 모방 학습 방법(예: MA-GAIL)과 어떻게 비교되나요?
RQ4MA-AIRL은 보상 식별성을 유지하면서 알려지지 않은 다이나믹스의 고차원 상태-행동 공간으로 확장 가능한가요?

주요 결과

MA-AIRL은 실험에서 지상 진실과 크게 상관된 보상 함수를 회복합니다.
MA-AIRL은 협력적 및 경쟁적 작업이 혼합된 환경에서 최첨단 다기관 모방 학습 기준선보다 정책을 크게 능가하는 학습을 보여줍니다.
MA-AIRL은 LSBRE 프레임워크와 의사 우도 추정을 통해 MaxEnt IRL 및 적대적 학습을 Markov 게임으로 확장합니다.
판별기 출력이 보상 추정과 정렬되며 적응 샘플러 q_theta가 전문가 정책을 추정하여 안정적인 학습을 가능하게 합니다.
MA-AIRL은 이전의 표 기반 또는 단순 구조 IRL 방법이 실패하는 고차원 상태-행동 공간 및 알려지지 않은 다이나믹스에서도 확장성을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.