QUICK REVIEW

[논문 리뷰] A Deep Hierarchical Approach to Lifelong Learning in Minecraft

Chen Tessler, Shahar Givony|arXiv (Cornell University)|2016. 04. 25.

Reinforcement Learning in Robotics참고 문헌 33인용 수 141

한 줄 요약

논문은 계층적 딥 강화 학습 네트워크(H-DRLN)를 도입하여 DSN 배열 또는 증류된 다중 기술 네트워크를 통해 사전 학습된 Deep Skill Networks(DSN)를 재사용하고, Minecraft에서의 지속적인 학습과 확장 가능한 지식 축적을 가능하게 하며, 서브도메인에서 vanilla DQN보다 우수한 성능을 보일 것을 제시합니다. 또한 시간적으로 확장된 행동으로 학습을 가능하게 하는 새로운 Skill Bellman 방정식과 Skill Experience Replay를 제안합니다.

ABSTRACT

We propose a lifelong learning system that has the ability to reuse and transfer knowledge from one task to another while efficiently retaining the previously learned knowledge-base. Knowledge is transferred by learning reusable skills to solve tasks in Minecraft, a popular video game which is an unsolved and high-dimensional lifelong learning problem. These reusable skills, which we refer to as Deep Skill Networks, are then incorporated into our novel Hierarchical Deep Reinforcement Learning Network (H-DRLN) architecture using two techniques: (1) a deep skill array and (2) skill distillation, our novel variation of policy distillation (Rusu et. al. 2015) for learning skills. Skill distillation enables the HDRLN to efficiently retain knowledge and therefore scale in lifelong learning, by accumulating knowledge and encapsulating multiple reusable skills into a single distilled network. The H-DRLN exhibits superior performance and lower learning sample complexity compared to the regular Deep Q Network (Mnih et. al. 2015) in sub-domains of Minecraft.

연구 동기 및 목표

에 Minecraft와 같은 고차원 환경에서 에이전트가 지속적으로 지식을 획득하고 보유하며 태스크 간에-transfer하는 lifelong learning을 동기화한다.
재사용 가능한 스킬(DSN)과 계층적 컨트롤러를 도입하여 선택적 전달로 새로운 태스크를 효율적으로 해결한다.
스케일 가능한 메커니즘(DSN 배열 및 증류된 다중 스킬 네트워크)을 개발하여 스킬 증류를 통해 여러 스킬의 보유 및 결합을 가능하게 한다.
Minecraft 서브 도메인에서 vanilla DQN에 비해 학습 성능과 수렴 속도를 향상시키는 것을 보여준다.
관련 태스크 간의 추가 학습 없이 지식 전달의 실증적 증거를 제공한다.

제안 방법

스킬을 시작 집합, 내부 스킬 정책, 종료 조건이 있는 시간적으로 확장된 행동(옵션)으로 정의한다.
DSN 배열 또는 증류된 다중 스킬 네트워크를 저장하는 Deep Skill Module을 갖춘 Hierarchical Deep RL Network(H-DRLN)로 DQN을 확장한다.
스킬 기반 학습을 다루기 위해 Skill Bellman 방정식과 Skill Experience Replay를 도입한다.
vanilla DQN 변형을 사용하여 서브 도메인에서 DSN을 학습시키고 이를 새로운 태스크에 대해 H-DRLN에 통합한다.
여러 DSN을 단일 증류 네트워크로 융합하기 위한 정책 증류를 적용하여 지식 보유를 확장 가능하게 한다.
Minecraft 서브 도메인 및 합성 도메인에서 평가하여 vanilla DQN 및 DDQN과 비교한다.

실험 결과

연구 질문

RQ1미리 학습된 DSN이 간단한 서브 도메인에서 학습된 것을 더 복잡한 Minecraft 태스크 해결에 재사용할 수 있는가?
RQ2H-DRLN이 계층적 태스크에서 표준 DQN/DDQN보다 더 데이터 효율적 학습과 더 높은 성능을 가능하게 하는가?
RQ3여러 DSN을 손실 없이 단일 확장 가능한 네트워크로 증류할 수 있는가?
RQ4지식 전달이 추가 학습 없이 발생하는가? 학습 중 스킬 사용은 어떻게 진화하는가?

주요 결과

도메인	tau=0.1	tau=1	Original DSN
Navigation	81.5	78.0	94.6
Pick Up	99.6	83.3	100
Break	78.5	73.0	100
Placement	78.5	73.0	100

DSN을 활용한 H-DRLN은 Minecraft 서브 도메인에서 vanilla DQN보다 더 빠른 수렴과 더 높은 성능을 달성합니다.
두 방 도메인에서 vanilla DQN은 50% 성공, DSN 단독은 67.65%, H-DRLN_START은 73.08%, H-DRLN_END는 76%의 성공을 보입니다.
증류된 다중 스킬 네트워크는 방 전체에서 최대 94±4%의 성공을 달성하며 DDQN 기반선보다 우수합니다.
스킬 사용은 학습 중반(에폭 50 부근)까지 증가하다가 기본 행동으로 정책을 미세 조정하면서도 스킬이 학습 속도를 크게 가속합니다.
한 방 도메인에서 학습된 DSN은 추가 학습 없이 관련 작업으로 전달될 수 있어 대상 태스크에 직접 학습된 DQN보다 더 높은 보상을 산출합니다.
스킬 기반 학습은 샘플 복잡도를 줄이고, 시간적으로 확장된 행동을 가능하게 하여 탐색을 개선합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.