QUICK REVIEW

[논문 리뷰] Safe Reinforcement Learning via Curriculum Induction

Matteo Turchetta, Andrey Kolobov|arXiv (Cornell University)|2020. 06. 22.

Reinforcement Learning in Robotics참고 문헌 44인용 수 41

한 줄 요약

CISR는 교육 커리큘럼 기반의 안전한 RL 프레임워크를 도입하며, 학습 중 학습자를 안전하게 유지하기 위해 개입을 사용하는 교사 에이전트가 세대를 거치며 커리큘럼을 발전시켜 최종 정책 성능을 향상시킨다.

ABSTRACT

In safety-critical applications, autonomous agents may need to learn in an environment where mistakes can be very costly. In such settings, the agent needs to behave safely not only after but also while learning. To achieve this, existing safe reinforcement learning methods make an agent rely on priors that let it avoid dangerous situations during exploration with high probability, but both the probabilistic guarantees and the smoothness assumptions inherent in the priors are not viable in many scenarios of interest such as autonomous driving. This paper presents an alternative approach inspired by human teaching, where an agent learns under the supervision of an automatic instructor that saves the agent from violating constraints during learning. In this model, we introduce the monitor that neither needs to know how to do well at the task the agent is learning nor needs to know how the environment works. Instead, it has a library of reset controllers that it activates when the agent starts behaving dangerously, preventing it from doing damage. Crucially, the choices of which reset controller to apply in which situation affect the speed of agent learning. Based on observing agents' progress, the teacher itself learns a policy for choosing the reset controllers, a curriculum, to optimize the agent's final policy reward. Our experiments use this framework in two environments to induce curricula for safe and efficient learning.

연구 동기 및 목표

탐색이 비용이 들거나 위험할 수 있는 안전이 중요한 환경에서 안전한 RL을 촉진한다.
환경 모델을 요구하지 않고 학습 중 안전을 보장하기 위한 개입을 사용하는 교사-학생 프레임워크 CISR를 제안한다.
관찰된 학생 진행에 기초해 개입의 순서를 최적화하는 커리큘럼 정책을 개발한다.
개입으로 형성된 CMDP의 안전 속성에 대한 이론적 보장을 제시한다.
도전적인 환경에서의 안전성과 효율성 이점을 입증하고, 에이전트 간 커리큘럼 정책의 전달성을 보인다.

제안 방법

개입을 상태 조건부 재설정 분포를 갖는 트리거 세트로 정의한다.
각 개입을 학습자 안전을 유지하기 위해 역학을 재정의하고 가능성을 보존하는 수정된 CMDP로 모델링한다.
개입 하에 안전 위반에 대한 제약과 교사가 부과한 제약을 갖는 학생 학습 문제를 도입한다.
커리큘럼을 개입 CMDP의 연속으로 형식화하고 학생의 성과 통계에 따라 적응하는 커리큘럼 정책을 정의한다.
교사를 평가 특징과 매개변수 최적화를 위한 GP-UCB를 사용하여 라운드별로 커리큘럼 정책을 최적화하는 온라인 학습자로 본다.
프라이멀-듀얼 최적화를 포함한 CMDP 해결기, 개입 간 지식 이전, 베이지안 최적화 루프를 갖춘 반응형 교사 정책 등 실용적 구현 선택을 설명한다.

실험 결과

연구 질문

RQ1교사부가 task나 환경에 대한 완전한 지식 없이 RL 에이전트의 학습 안전을 보장할 수 있는가?
RQ2데이터 기반의 적응 커리큘럼 정책이 고정 커리큘럼이나 무 커리큘럼 대비 안전한 학습 속도를 가속하는가?
RQ3개입-유도 CMDP가 학습자와 과제 간 안전한 학습 전이를 제공하는가?
RQ4안전 제약 하에서 최종 정책 성능에 미치는 커리큘럼 설계의 영향은 무엇인가?
RQ5온라인 설정에서 감독이 제한된 상태에서 커리큘럼을 효율적으로 최적화할 수 있는 방법은 무엇인가?

주요 결과

안전 개입의 커리큘럼은 위험이 탐지되면 안전한 상태로 재설정함으로써 학습 중 학생의 안전을 유지할 수 있다.
특정 조건에서 개입-유도 CMDP 내의 학습은 교사가 제거된 후 원래 CMDP에서 실행 가능하다는 정책을 생성한다.
데이터 주도형 온라인 교사는 관찰된 진행 통계에 기반해 세대를 거치며 커리큘럼 정책을 개선한다.
Frozen Lake와 Lunar Lander에서 커리큘럼 최적화된 CISR은 비커리큘럼 또는 고정 개입 기준선에 비해 최종 보상은 동등하거나 우수하면서도 안전성을 유지한다.
CISR이 학습한 커리큘럼 정책은 다른 구조와 센싱 능력을 가진 에이전트 간에 잘 전달된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.