QUICK REVIEW

[논문 리뷰] Kickstarting Deep Reinforcement Learning

Simon Schmitt, Jonathan J. Hudson|arXiv (Cornell University)|2018. 03. 10.

Reinforcement Learning in Robotics참고 문헌 17인용 수 44

한 줄 요약

논문은 Kickstarting을 제시합니다. 이는 하나 이상의 사전 학습된 교사 에이전트를 사용해 새로운 학생 에이전트를 학습 중에 안내하고, 교사 정책 교차 엔트로피 손실을 점진적으로 감소시키며 학생이 교사보다 성능을 넘설 수 있도록 하는 프레임워크입니다. 특히 다수의 교사를 사용할 때 DMLab-30 벤치마크에서 데이터 효율적 속도향상을 보여줍니다.

ABSTRACT

We present a method for using previously-trained 'teacher' agents to kickstart the training of a new 'student' agent. To this end, we leverage ideas from policy distillation and population based training. Our method places no constraints on the architecture of the teacher or student agents, and it regulates itself to allow the students to surpass their teachers in performance. We show that, on a challenging and computationally-intensive multi-task benchmark (DMLab-30), kickstarted training improves the data efficiency of new agents, making it significantly easier to iterate on their design. We also show that the same kickstarting pipeline can allow a single student agent to leverage multiple 'expert' teachers which specialize on individual tasks. In this setting kickstarting yields surprisingly large gains, with the kickstarted agent matching the performance of an agent trained from scratch in almost 10x fewer steps, and surpassing its final performance by 42 percent. Kickstarting is conceptually simple and can easily be incorporated into reinforcement learning experiments.

연구 동기 및 목표

이전에 학습된 전문가를 활용해 데이터 요건을 줄이고 새로운 RL 에이전트의 빠른 학습을 촉진한다.
임의의 교사/학생 아키텍처를 허용하는 유연한 킥스타트 프레임워크를 개발한다.
학생이 교사 지도로부터 환경 보상으로 점차 초점을 이동시켜 교사 성능을 능가하도록 한다.
특정 작업 전문 지식을 위한 다수의 교사를 확장하고 다양한 다중 작업 세트에서 평가한다.

제안 방법

교사와 학생 정책 간의 보조 크로스 엔트로피 손실을 RL 목표와 결합한다.
교사 감독을 조정하는 시간 의존 가중치 lambda_k를 도입한다.
오프폴리시 보정(V-trace)이 적용 가능한 경우 A3C/IMPALA 스타일의 정책 기반 RL에 프레이밍한다.
Population Based Training(PBT)을 통해 lambda_k 및 다른 하이퍼파라미터를 온라인으로 최적화할 수 있다.
다교사 설정에서 작업별 전문가를 사용하고 여러 감독 신호를 관리하기 위해 증류 가중치를 분해한다.
단일 교사 및 다중 교사 시나리오 모두를 제공하고 초기 학습 및 순수 증류와의 비교를 제시한다.

실험 결과

연구 질문

RQ1킥스타트가 사전 학습된 교사를 활용해 architectures를 제약하지 않고 깊은 RL의 학습 속도를 촉진할 수 있는가?
RQ2학생이 교사의 감독 하에 보상을 최적화하도록 허용하면 교사 성능을 넘어설 수 있는가?
RQ3다중 작업 RL에서 단일 대 다중 교사의 이점은 무엇인가?
RQ4교사 지도의 영향(lambda_k)을 데이터 효율성과 최종 성능을 극대화하도록 어떻게 스케줄링하는 것이 바람직한가?

주요 결과

Score at Frames	0.5B	1.0B	2.0B	10.0B	30.0	40.0	50.0
대형 킥스타트	37.4	39.4	42.4	56.9	0.13B	1.39B	5.31B
대형에서 시작	24.1	31.1	37.5	51.9	0.99B	3.26B	8.14B

단일 교사를 사용할 때 도전적인 다중 작업 벤치마크에서 최대 1.5배의 속도향상을 달성한다.
킥스타트를 통해 학생이 빠르게 교사를 능가할 수 있다.
다중 작업 특화 전문가 교사를 사용할 경우 킥스타트 에이전트는 무작정 학습 대비 약 9.58배 적은 단계에서 스크래치 학습 성능에 도달하고 최종 교사 성능을 42.2% 상회한다.
lambda_k의 PBT 유도 스케줄링은 수동으로 설계된 스케줄과 대등한 결과를 달성할 수 있어 수동 하이퍼파라미터 튜닝의 필요성을 줄인다.
더 큰 교사와의 킥스타트는 작은 교사보다 더 나은 학점을 제공하며, 단독 증류는 긴 학습에서 킥스타트보다 성능이 떨어진다.
다수의 전문가를 결합하면 관련 작업 간 전이가 가능해진다(예: 레이저 태그 변형과 내비게이션).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.