QUICK REVIEW

[논문 리뷰] DisCoRL: Continual Reinforcement Learning via Policy Distillation

Kalifou René Traoré, Hugo Caselles-Dupré|arXiv (Cornell University)|2019. 07. 11.

Domain Adaptation and Few-Shot Learning참고 문헌 21인용 수 35

한 줄 요약

DisCoRL은 순차적 작업에서 테스트 시 태스크 레이블 없이 지속적 강화학습을 수행하기 위해 상태 표현 학습과 정책 증류를 결합하며, 시뮬레이션에서 평가되고 실세계로 이전된다.

ABSTRACT

In multi-task reinforcement learning there are two main challenges: at training time, the ability to learn different policies with a single model; at test time, inferring which of those policies applying without an external signal. In the case of continual reinforcement learning a third challenge arises: learning tasks sequentially without forgetting the previous ones. In this paper, we tackle these challenges by proposing DisCoRL, an approach combining state representation learning and policy distillation. We experiment on a sequence of three simulated 2D navigation tasks with a 3 wheel omni-directional robot. Moreover, we tested our approach's robustness by transferring the final policy into a real life setting. The policy can solve all tasks and automatically infer which one to run.

연구 동기 및 목표

자율 에이전트가 망각 없이 태스크 레이블에 의존하지 않고 순차적으로 기술을 학습하도록 자율 에이전트를 자극한다.
지속적 RL을 위한 상태 표현 학습과 정책 증류를 결합하는 파이프라인을 개발한다.
증류된 정책이 여러 작업을 해결하고 실제 로봇 환경으로의 이전이 가능함을 입증한다.

제안 방법

Env_i에서 임의 정책으로 수집한 데이터로 SRL을 이용해 작업 특화 상태 표현 인코더 E_i를 학습한다.
학습된 상태 공간에서 RL을 사용해 정책 pi_i를 훈련한다.
궤적을 따라 pi_i로부터 관찰과 행동 확률을 기록하여 증류 데이터셋 D_pi_i를 생성한다.
D_pi_i를 과거의 증류 데이터셋과 결합해 교사들을 모방하도록 학생을 학습시켜 pi_i를 공유 정책 pi_d:(1..i)로 증류한다.
증류된 정책들을 단일 정책 pi_d:1..n로 집계하여 태스크 지시자 없이도 적절한 행동을 선택할 수 있게 한다.
도메인 난수화와 SRL을 사용하여 시뮬레이션에서 최종 증류 정책을 평가하고 실세계로 이전한다.

실험 결과

연구 질문

RQ1하나의 단일 증류 정책이 테스트 시 태스크 레이블 없이 여러 순차적 RL 작업을 실행할 수 있는가?
RQ2SRL과 정책 증류를 결합하면 지속적 RL 설정에서 태스크 간 망각을 방지할 수 있는가?
RQ3도메인 난수화를 통한 시뮬레이션에서 실제 로봇으로의 증류 정책 전달은 얼마나 잘 수행되는가?

주요 결과

이 파이프라인은 시뮬레이션에서 세 개의 순차적 2D 탐색 작업을 지속적으로 학습하고 최종 정책을 실제 로봇으로 이전한다.
정책 증류 메모리는 모든 교사 모델을 저장하는 대신 데이터(D_pi_i)만 사용하여 확장 가능한 지속적 RL을 가능하게 한다.
각 작업의 RL 정책 pi_i는 효율적으로 학습된 후 정책 학습에 비해 상대적으로 낮은 계산 비용으로 단일 정책으로 증류된다.
테스트 시 태스크 레이블이 필요하지 않으며 시각적 단서를 통해 현재 태스크를 추론한다.
실험은 시뮬레이션-실제 도달에 도움을 주는 도메인 난수화를 포함하고 현실 차이에 대한 강건성을 보여준다.
태스크당 증류 데이터셋은 약 10k 샘플을 포함하여 전체 RL 학습에 비해 증류를 더 빠르게 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.