QUICK REVIEW

[논문 리뷰] Modular Multitask Reinforcement Learning with Policy Sketches

Jacob Andreas, Dan Klein|arXiv (Cornell University)|2016. 11. 06.

Reinforcement Learning in Robotics참고 문헌 30인용 수 229

한 줄 요약

논문은 추상 정책 스케치를 안내로 하는 모듈형 다중 작업 강화학습 프레임워크를 소개하고, 고수준 기호별로 재사용 가능한 하위정책을 학습하며, 커리큘럼 학습으로 디커플링된 액터–크리틱을 최적화한다.

ABSTRACT

We describe a framework for multitask deep reinforcement learning guided by policy sketches. Sketches annotate tasks with sequences of named subtasks, providing information about high-level structural relationships among tasks but not how to implement them---specifically not providing the detailed guidance used by much previous work on learning policy abstractions for RL (e.g. intermediate rewards, subtask completion signals, or intrinsic motivations). To learn from sketches, we present a model that associates every subtask with a modular subpolicy, and jointly maximizes reward over full task-specific policies by tying parameters across shared subpolicies. Optimization is accomplished via a decoupled actor--critic training objective that facilitates learning common behaviors from multiple dissimilar reward functions. We evaluate the effectiveness of our approach in three environments featuring both discrete and continuous control, and with sparse rewards that can be obtained only after completing a number of high-level subgoals. Experiments show that using our approach to learn policies guided by sketches gives better performance than existing techniques for learning task-specific or shared policies, while naturally inducing a library of interpretable primitive behaviors that can be recombined to rapidly adapt to new tasks.

연구 동기 및 목표

환경의 구체적 특성에 고수준 행동을 grounding하지 않고 계층적 정책 학습을 촉진한다.
각 고수준 기호를 재사용 가능한 하위정책과 연관시키는 모듈식 하위정책 아키텍처를 제시한다.
모듈식 다중 작업 정책에 적합한 분리된 액터–크리틱 학습 목표를 개발한다.
커리큘럼 학습으로 학습을 시연하고 제로샷 및 적응 설정에 대한 일반화를 평가한다.

제안 방법

고수준 기호의 시퀀스로 구성된 스케치를 사용해 태스크를 주석 처리한다.
각 기호를 전용 하위정책과 연관시키고 동일 기호를 사용하는 태스크 간에 하위정책을 공유한다.
각 태스크 정책을 하위 태스크의 연결로 간주하고, 다음 하위정책으로 진행하기 위해 중지 메커니즘을 사용한다.
경사 하강 분산을 줄이기 위해 태스크 및 상태 의존 크리틱을 갖는 분리된 액터–크리틱 목표를 사용한다.
더 긴 스케치와 더 어려운 태스크를 점차 다루도록 커리큘럼 학습을 도입한다.

실험 결과

연구 질문

RQ1정책 스케치가 다중 태스크에 걸쳐 빠르고 모듈식 학습을 가능하게 할 만큼 충분한 지도를 제공하는가?
RQ2스케치를 통해 학습된 공유 하위정책이 비모듈 기반 기준선에 비해 샘플 효율성과 성능을 향상시키는가?
RQ3모듈식 하위정책이 스케치로 안내될 때 제로샷 및 적응 시나리오에서 어떤 성능을 보이는가?
RQ4커리큘럼 설계 및 태스크- 및 상태 의존 기준선이 학습 효율성에 미치는 영향은 무엇인가?

주요 결과

모듈식 스케치-가이드 학습은 craft, maze, cliff 환경에서 태스크별 혹은 완전 공유 정책을 학습하는 기준선보다 상당히 우수하게 성능을 보인다.
이 접근 방식은 새로운 태스크에 재조합할 수 있는 직관적인 원시 정책 라이브러리를 유도한다.
상태- 및 태스크 의존 크리틱과의 공동 학습은 상수 기준선보다 더 빠른 수렴을 보인다.
커리큘럼 구성 요소(길이 기반 및 보상 기반 태스크 샘플링)가 수렴 속도를 개선한다.
제로샷 및 적응 실험에서 기준선이 어려움을 겪는 영역에서 강한 일반화를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.