QUICK REVIEW

[논문 리뷰] Relational Deep Reinforcement Learning

Vinícius Zambaldi, David Raposo|arXiv (Cornell University)|2018. 06. 05.

Reinforcement Learning in Robotics참고 문헌 20인용 수 159

한 줄 요약

이 논문은 자기-주의를 통해 관계적 귀납 편향을 도입하여 심층 강화 학습에서 비국소 관계 추론을 가능하게 하고, Box-World 및 StarCraft II 미니게임에서 샘플 효율성, 일반화 및 성능을 향상시킨다.

ABSTRACT

We introduce an approach for deep reinforcement learning (RL) that improves upon the efficiency, generalization capacity, and interpretability of conventional approaches through structured perception and relational reasoning. It uses self-attention to iteratively reason about the relations between entities in a scene and to guide a model-free policy. Our results show that in a novel navigation and planning task called Box-World, our agent finds interpretable solutions that improve upon baselines in terms of sample complexity, ability to generalize to more complex scenes than experienced during training, and overall performance. In the StarCraft II Learning Environment, our agent achieves state-of-the-art performance on six mini-games -- surpassing human grandmaster performance on four. By considering architectural inductive biases, our work opens new directions for overcoming important, but stubborn, challenges in deep RL.

연구 동기 및 목표

딥 RL의 일반화 및 샘플 효율성을 향상시키기 위해 관계 표현을 도입하는 동기를 제시한다.
장면 엔티티 간의 비국소적이고 반복적인 관계 추론을 가능하게 하는 아키텍처적 귀납 편향을 제안한다.
관계 추론이 해석 가능하고 전이 가능한 표현을 낳는지 démonstra를 보여준다.
StarCraft II 미니게임에서의 최첨단 성능과 Relational하게 도전적인 Box-World 작업에서의 강한 성능을 보인다.

제안 방법

상태, 행동 및 정책을 학습을 안내하기 위한 관계적 언어로 표현한다.
엔티티 간의 쌍 및 상위 차원 상호작용을 계산하기 위해 비국소적 공유 함수 어텐션 블록(다중 헤드 점곱 어텐션)을 사용한다.
CNN 피처에 좌표를 부가하고 공간 셀을 어텐션 처리의 엔티티로 취급함으로써 픽셀 입력에서 엔티티를 추출한다.
정책 및 가치 헤드 전에 남는 연결이 있는 어텐션 블록들을 적층하고 최대 풀링으로 집계한다.
Box-World에 대해 분산 아키텍처(100 배우, 1 학습자)를 사용하는 액터-크리틱 설정을 적용하고, StarCraft II에 대해서는 시계열 의존성을 다루기 위해 ConvLSTM으로 아키텍처를 조정한다.
관계 편향의 혜택을 고립하기 위해 비관계 제어 네트워크(잔차 컨볼루션 블록)와의 베이스라인 비교를 제공한다.

실험 결과

연구 질문

RQ1자기 어텐션으로 학습된 관계 표현이 RL 작업에서 보지 못한 관계 구성에 대한 일반화를 향상시킬 수 있는가?
RQ2반복적이고 비국소적 관계 계산이 국소 컨볼루션을 넘어서는 고차 관계 추론을 가능하게 하는가?
RQ3Relational 귀납 편향이 StarCraft II 미니게임과 같은 복잡한 환경에서 샘플 효율성 및 성능에 어떤 영향을 미치는가?
RQ4학습된 관계 표현은 어느 정도 해석 가능하고 작업 간 전이 가능한가?

주요 결과

미니게임	DeepMind 인간 선수	StarCraft 그랜드마스터	랜덤 정책	FullyConv LSTM	PBT-A3C	Relational 에이전트	컨트롤 에이전트
1	26	28	1	26	–	27	27
2	133	177	17	104	101	196 ↑	187 ↑
3	46	61	4	44	50	62 ↑	61
4	41	215	1	98	132	303 ↑	295 ↑
5	729	727	23	96	125	736 ↑	602
6	6880	7566	12	3351	3345	4906	5055
7	138	133	< 1	6	0	123	120

Relational 모듈은 Box-World 변형에서 거의 최적의 성능을 가능하게 했고, 특히 방해 요소의 복잡성이 증가함에 따라 컨볼루션 베이스라인보다 우수한 성능을 보였다.
Box-World에서 관계 추론을 가진 에이전트는 더 긴 해결 경로와 보지 못한 열쇠-잠금 구성에 일반화하여 높은 성공률을 보였다(예: 더 긴 경로에 대해 제로샷 전이에서 >88%의 성능).
StarCraft II 미니게임에서 관계 에이전트는 여섯 개 미니게임에서 최첨단 점수를 달성하고 네 개에서 사람 그랜드마스터를 능가했으며 컨트롤 에이전트를 앞섰다.
어텐션 시각화는 열쇠가 해제 가능한 자물쇠를 주시하는 등의 해석 가능한 관계 의미를 보여주었다.
Relational 에이전트는 더 긴 시퀀스와 새로운 열쇠-잠금 조합에서 제로샷 전이 능력을 시연하여 더 강한 추상적 관계 이해를 나타냈다.
Relational 편향은 일부 SC2 설정에서 일반화 향상에 기여했으나 결과는 모델 크기에 따라 다르고 변동성이 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.