QUICK REVIEW

[논문 리뷰] Actor-Mimic: Deep Multitask and Transfer Reinforcement Learning

Emilio Parisotto, Jimmy Ba|arXiv (Cornell University)|2015. 11. 19.

Reinforcement Learning in Robotics참고 문헌 18인용 수 207

한 줄 요약

Actor-Mimic는 모델 압축을 사용하여 전문 네트워크를 모방함으로써 단일 정책 네트워크가 동시에 여러 Atari 게임을 습득할 수 있도록 하는 딥 다중작업 및 전이 강화학습 방법을 제안한다. 이 방법은 다중작업 사전학습 기간 동안 학습된 공유 표현을 통해 새로운 작업으로의 일반화를 가능하게 하여, 새로운 환경에서 학습 속도를 크게 향상시킨다.

ABSTRACT

The ability to act in multiple environments and transfer previous knowledge to new situations can be considered a critical aspect of any intelligent agent. Towards this goal, we define a novel method of multitask and transfer learning that enables an autonomous agent to learn how to behave in multiple tasks simultaneously, and then generalize its knowledge to new domains. This method, termed "Actor-Mimic", exploits the use of deep reinforcement learning and model compression techniques to train a single policy network that learns how to act in a set of distinct tasks by using the guidance of several expert teachers. We then show that the representations learnt by the deep policy network are capable of generalizing to new tasks with no prior expert guidance, speeding up learning in novel environments. Although our method can in general be applied to a wide range of problems, we use Atari games as a testing environment to demonstrate these methods.

연구 동기 및 목표

단일 딥 강화학습 에이전트가 동시에 여러 작업을 학습할 수 있도록 하는 방법을 개발하는 것.
공유 표현을 사용하여 소스 작업에서 새로운, 미리 보지 않은 타겟 작업으로 지식 전이를 가능하게 하는 것.
모델 압축 기법을 활용하여 전문 지시에 따라 압축된 다중작업 정책 네트워크를 훈련하는 것.
다중작업 사전학습이 무작위 초기화보다 새로운 작업에서의 학습 속도를 향상시킨다는 것을 입증하는 것.

제안 방법

이 방법은 애널리시스 학습을 사용하여 다수의 게임 전용 전문 네트워크를 모방하는 단일 딥 정책 네트워크(‘모방자’)를 훈련한다.
모델 압축 기법을 적용하여 전문 지식을 공유되고 압축된 정책 네트워크로 압축한다.
행동 모방 외에 더 풍부한 감독을 제공하기 위해 특징 회귀 목표 함수를 사용하여 표현 학습을 향상시킨다.
다중작업 네트워크는 새로운 타겟 작업에서 미세조정되어 전이 학습의 이점을 보여준다.
훈련 안정성을 위해 DQN와 유사한 리PLAY 메모리와 타겟 네트워크를 사용한다.
이 방법은 Atari 2600 게임을 사용한 아케이드 학습 환경(ALE)에서 평가된다.

실험 결과

연구 질문

RQ1전문 지시를 사용하여 단일 딥 정책 네트워크가 여러 다른 강화학습 작업에서 잘 수행할 수 있는가?
RQ2Actor-Mimic를 사용한 다중작업 사전학습이 새로운, 이전에 보지 않은 작업에서 학습 속도를 빠르게 하는가?
RQ3다중작업 학습 기간 동안 학습된 표현이 새로운 환경으로 효과적으로 일반화되는가?
RQ4중간 단계의 특징 감독이 행동 전용 모방보다 성능 향상에 기여하는가?
RQ5작업 유사도가 이 프레임워크 내에서 전이 학습 성공에 어떤 영향을 미치는가?

주요 결과

Actor-Mimic 네트워크는 단일 공유 정책 네트워크를 사용하여 여러 Atari 게임에서 전문 수준의 성능를 달성한다.
Actor-Mimic를 사용한 다중작업 사전학습은 무작위 초기화보다 새로운 타겟 작업에서의 학습 속도를 크게 향상시킨다.
특징 회귀를 감독 신호로 사용할 경우 행동 전용 모방보다 더 나은 일반화가 이루어진다.
Pong와 Breakout처럼 유사한 메커니즘을 가진 작업들 사이에서 공유되는 시각적 및 구조적 특징 덕분에 이 방법은 작업 간 일반화가 가능하다.
소스 작업과 타겟 작업이 유사하지 않은 경우 부정적 전이가 발생하여 전이 학습 성공률이 떨어진다.
이 방법은 단일 작업 DQN과 유사한 모델 복잡도를 유지하면서 동시에 여러 작업을 학습한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.