QUICK REVIEW

[논문 리뷰] Coordinated Multi-Agent Imitation Learning

Hoang Le, Yisong Yue|arXiv (Cornell University)|2017. 03. 09.

Reinforcement Learning in Robotics참고 문헌 25인용 수 60

한 줄 요약

본 논문은 alternating optimization을 사용하여 역할 할당을 추론하고 imitation 손실을 개선하기 위해 multi-agent imitation을 위한 latent coordination model과 개별 정책을 공동으로 학습하는 semi-supervised 프레임워크를 제시합니다.

ABSTRACT

We study the problem of imitation learning from demonstrations of multiple coordinating agents. One key challenge in this setting is that learning a good model of coordination can be difficult, since coordination is often implicit in the demonstrations and must be inferred as a latent variable. We propose a joint approach that simultaneously learns a latent coordination model along with the individual policies. In particular, our method integrates unsupervised structure learning with conventional imitation learning. We illustrate the power of our approach on a difficult problem of learning multiple policies for fine-grained behavior modeling in team sports, where different players occupy different roles in the coordinated team strategy. We show that having a coordination model to infer the roles of players yields substantially improved imitation loss compared to conventional baselines.

연구 동기 및 목표

coordination이 암묵적이고 역할이 관찰되지 않는 상태에서 다중 조정 에이전트의 모방 학습을 동기화합니다.
구조화된 잠재 조정 학습을 일반적인 모방 학습과 결합하는 semi-supervised 프레임워크를 제안합니다.
latent 구조 모델과 개별 정책을 모두 효과적으로 학습시키기 위한 alternating optimization 스킴을 개발합니다.
합성(포식자-피식자) 및 실제와 같은 다중 에이전트 과제에서 접근 방법을 시연하여 모방 성능의 향상을 보여줍니다.

제안 방법

coordinated imitation을 데센트럴라이즈된 다중 정책 학습 plus 에 잠재 조정 모델을 학습하는 문제로 형식화합니다. 이 모델은 Demonstrations 전체에서 에이전트에게 역할을 할당합니다.
그래프 모델 q를 이용해 조정 구조를 인코딩하고, 학습된 역할과 일치하도록 궤적을 재인덱싱하는 역할 할당 A를 도입합니다.
다중 에이전트 정책에 대해 black-box 예측기(예: 심층 네트워크, Random Forest)를 사용할 수 있도록 reduction 기반 모방 학습 접근법을 채택합니다.
조정 구조의 q(θ,z)를 학습하기 위해 확률적 변분 추론을 사용하고, 잠재 역할 시퀀스 z를 히든 마르코프 프로세스로 모델링합니다.
잠재 모델과 궤적 가능성에서 파생된 비용 행렬을 이용해 Kuhn–Munkres에 의한 선형 배정 문제를 통해 역할 할당을 해결합니다.
구조를 고정하고 정책을 학습하는 Algorithm 2 및 역할 구조와 할당을 업데이트하는 Algorithm 3/Algorithm 4 사이에서 번갈아(Algorithm 1) 학습합니다.
역할 할당에 대한 엔트로피 정규화를 도입하여 인덱싱의 다양화를 촉진합니다(H(A|D) 최대화).

실험 결과

연구 질문

RQ1잠재 조정 모델을 정책과 함께 학습하여 다중 에이전트 시연에서 관찰되지 않는 역할을 추론할 수 있는가?
RQ2구조화된 역할 할당을 도입하면 비구조적 다중 에이전트 모방 학습에 비해 imitation 손실이 향상되는가?
RQ3교대 최적화 프레임워크가 다중 에이전트 모방에서 비정상성 및 공변량 변화에 얼마나 효과적으로 대처하는가?
RQ4coordination된 역할 할당이 합성(p predator-prey) 및 실제와 같은 도메인에서 성능에 미치는 영향은 무엇인가?

주요 결과

조정된 접근은 합성 및 축구 도메인에서 베이스라인보다 모방 성능을 크게 향상시킵니다.
잠재 구조 모델을 통한 역할 추론은 정책 학습을 위한 더 일관된 상태 표현을 가능하게 하여 조정을 개선합니다.
잠재 역할을 통한 조정을 학습하는 방법은 큰 다중 에이전트 설정(예: 다수의 에이전트와 긴 궤적의 축구 수비)에서도 확장 가능함을 보여줍니다.
조정된 역할 할당으로 학습된 분산 정책은 조정이 학습되었을 때 중앙 집중 정책과 경쟁력 있거나 유사한 성능을 달성합니다.
제시된 설정에서 협력적 다중 에이전트 정책을 공동으로 학습하기 위한 모방 학습의 최초 사례로서 이 접근법은 규모가 큰 도메인에 적용됩니다.
학습된 조정 구조(HMM 구성요소)는 팀의 일반적 포메이션 및 경기 중 주요 역할 전환에 대응하는 지배적 모드를 드러냅니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.