QUICK REVIEW

[논문 리뷰] Deep Decentralized Multi-task Multi-Agent Reinforcement Learning under Partial Observability

Shayegan Omidshafiei, Jason Pazis|arXiv (Cornell University)|2017. 03. 17.

Reinforcement Learning in Robotics참고 문헌 39인용 수 188

한 줄 요약

논문은 부분 관찰 하에서 다중 작업 다중 에이전트 강화 학습(MT-MARL)을 형식화하고, 두 단계의 분산 접근법을 제안한다: 동시 경험 재생과 히스테리틱 DRQN으로 단일 작업 학습을 수행한 뒤, 이를 단일 다작-정책으로 증류한다. 명시적 작업 아이덴티티 없이도 로봇의 견고성 및 협업을 시연한다.

ABSTRACT

Many real-world tasks involve multiple agents with partial observability and limited communication. Learning is challenging in these settings due to local viewpoints of agents, which perceive the world as non-stationary due to concurrently-exploring teammates. Approaches that learn specialized policies for individual tasks face problems when applied to the real world: not only do agents have to learn and store distinct policies for each task, but in practice identities of tasks are often non-observable, making these approaches inapplicable. This paper formalizes and addresses the problem of multi-task multi-agent reinforcement learning under partial observability. We introduce a decentralized single-task learning approach that is robust to concurrent interactions of teammates, and present an approach for distilling single-task policies into a unified policy that performs well across multiple related tasks, without explicit provision of task identity.

연구 동기 및 목표

부분 관찰 가능성 하에서 분산 독립 학습자와 함께 MT-MARL를 formalize한다.
동료들로 인한 비정상성에 강한 안정적인 단일 작업 MARL 방법을 개발한다.
MARL에서 에피소드 전체 경험을 동기화하기 위한 Concurrent Experience Replay Trajectories (CERTs)를 도입한다.
명시적 작업 아이덴티티 없이도 특화된 단일 작업 정책을 단일 다작 정책으로 증류한다.
다양한 작업 설정에 걸친 다에이전트 대상 포획 도메인에서의 효과를 입증한다.

제안 방법

Decentralized Hysteretic Deep Recurrent Q-Networks (Dec-HDRQNs)를 사용하여 부분 관찰 MARL에서 히스테리틱 학습 속도로 Q-값을 학습한다.
Concurrent Experience Replay Trajectories (CERTs)를 도입하여 에피소드 전체 경험을 에이전트 간에 동기화하여 안정적인 학습을 달성한다.
순차적 트레이스와 역타임샘플링으로 부분 관찰 하에서의 학습 안정성을 확보한다.
Phase II에서 여러 작업에 특화된 DRQN들을 감독 회귀를 통해 Q-값으로 평준화하는 뒤틀린 KL-발산 손실을 이용하여 단일 증류 DRQN으로 증류한다.
증류 중에는 공존 CERTs를 회귀 경험 저장에 사용하지만 학습은 동시 샘플링이 아닌 감독 학습이다.
MT-MARL 문제를 공유된 Dec-POMDP 도메인으로 형식화하고, 훈련 중 학습자에게 작업 ID를 제공하지만 실행 중에는 제공하지 않는다.

실험 결과

연구 질문

RQ1부분 관찰 가능성 하에서 명시적 작업 ID 없이도 분산 독립 학습자들이 MT-MARL에서 협력 정책을 달성할 수 있는가?
RQ2히스테리틱 학습이 팀원 간 비정상성으로 인한 협력 MARL에서 안정성과 협력을 개선하는가?
RQ3단일 작업 특화 정책을 관련 작업들에 일반화되는 단일 다작 정책으로 증류할 수 있는가?
RQ4CERTs와 같은 동기화된 경험 샘플이 샘플 효율성과 안정성에 어떤 역할을 하는가?
RQ5제안된 MT-MARL 접근법은 다양한 작업 구성에서 다에이전트 대상 포획 도메인에서 어떻게 수행되는가?

주요 결과

Dec-HDRQN은 비히스테릭 방식이 실패하는 다에이전트 부분 관찰 가능성에서 안정적인 협력을 가능하게 한다.
CERTs는 경험을 동기화하여 분산 MARL에서 샘플 효율성과 안정성을 향상시킨다.
증류된 다작 DRQN은 특화된 작업 성능에 근접하며 실행 시에 명시적 작업 ID 없이도 단일 정책을 가능하게 한다.
2단계의 Phase II 증류가 다양한 격자 크기와 작업 할당에서 강건한 MT-MARL 성능을 제공한다.
히스테리틱 학습 속도는 협력 MARL에서 팀원의 탐색으로 인한 부정적 전달 및 불안정을 완화하는 데 도움을 준다.
매개변수 공유를 통한 중앙 집중식 간 inter-agent training은 완전히 분산된 히스테리틱 학습에 비해 성능 향상을 주지 않았다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.