[논문 리뷰] DisCoRL: Continual Reinforcement Learning via Policy Distillation
DisCoRL은 순차적 작업에서 테스트 시 태스크 레이블 없이 지속적 강화학습을 수행하기 위해 상태 표현 학습과 정책 증류를 결합하며, 시뮬레이션에서 평가되고 실세계로 이전된다.
In multi-task reinforcement learning there are two main challenges: at training time, the ability to learn different policies with a single model; at test time, inferring which of those policies applying without an external signal. In the case of continual reinforcement learning a third challenge arises: learning tasks sequentially without forgetting the previous ones. In this paper, we tackle these challenges by proposing DisCoRL, an approach combining state representation learning and policy distillation. We experiment on a sequence of three simulated 2D navigation tasks with a 3 wheel omni-directional robot. Moreover, we tested our approach's robustness by transferring the final policy into a real life setting. The policy can solve all tasks and automatically infer which one to run.
연구 동기 및 목표
- 자율 에이전트가 망각 없이 태스크 레이블에 의존하지 않고 순차적으로 기술을 학습하도록 자율 에이전트를 자극한다.
- 지속적 RL을 위한 상태 표현 학습과 정책 증류를 결합하는 파이프라인을 개발한다.
- 증류된 정책이 여러 작업을 해결하고 실제 로봇 환경으로의 이전이 가능함을 입증한다.
제안 방법
- Env_i에서 임의 정책으로 수집한 데이터로 SRL을 이용해 작업 특화 상태 표현 인코더 E_i를 학습한다.
- 학습된 상태 공간에서 RL을 사용해 정책 pi_i를 훈련한다.
- 궤적을 따라 pi_i로부터 관찰과 행동 확률을 기록하여 증류 데이터셋 D_pi_i를 생성한다.
- D_pi_i를 과거의 증류 데이터셋과 결합해 교사들을 모방하도록 학생을 학습시켜 pi_i를 공유 정책 pi_d:(1..i)로 증류한다.
- 증류된 정책들을 단일 정책 pi_d:1..n로 집계하여 태스크 지시자 없이도 적절한 행동을 선택할 수 있게 한다.
- 도메인 난수화와 SRL을 사용하여 시뮬레이션에서 최종 증류 정책을 평가하고 실세계로 이전한다.
실험 결과
연구 질문
- RQ1하나의 단일 증류 정책이 테스트 시 태스크 레이블 없이 여러 순차적 RL 작업을 실행할 수 있는가?
- RQ2SRL과 정책 증류를 결합하면 지속적 RL 설정에서 태스크 간 망각을 방지할 수 있는가?
- RQ3도메인 난수화를 통한 시뮬레이션에서 실제 로봇으로의 증류 정책 전달은 얼마나 잘 수행되는가?
주요 결과
- 이 파이프라인은 시뮬레이션에서 세 개의 순차적 2D 탐색 작업을 지속적으로 학습하고 최종 정책을 실제 로봇으로 이전한다.
- 정책 증류 메모리는 모든 교사 모델을 저장하는 대신 데이터(D_pi_i)만 사용하여 확장 가능한 지속적 RL을 가능하게 한다.
- 각 작업의 RL 정책 pi_i는 효율적으로 학습된 후 정책 학습에 비해 상대적으로 낮은 계산 비용으로 단일 정책으로 증류된다.
- 테스트 시 태스크 레이블이 필요하지 않으며 시각적 단서를 통해 현재 태스크를 추론한다.
- 실험은 시뮬레이션-실제 도달에 도움을 주는 도메인 난수화를 포함하고 현실 차이에 대한 강건성을 보여준다.
- 태스크당 증류 데이터셋은 약 10k 샘플을 포함하여 전체 RL 학습에 비해 증류를 더 빠르게 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.