QUICK REVIEW

[논문 리뷰] Programmatically Interpretable Reinforcement Learning

Abhinav Verma, Vijayaraghavan Murali|arXiv (Cornell University)|2018. 04. 06.

Adversarial Robustness in Machine Learning참고 문헌 35인용 수 97

한 줄 요약

Pirl은 사람에게 읽을 수 있는 프로그램으로 표현된 정책을 학습하고 신경 정책 오라클(Ndps)에 의해 안내되어 해석 가능하고 검증 가능한 제어 정책을 달성하며, 일부 경우에는 딥 RL보다 전이가 더 잘 이루어진다.

ABSTRACT

We present a reinforcement learning framework, called Programmatically Interpretable Reinforcement Learning (PIRL), that is designed to generate interpretable and verifiable agent policies. Unlike the popular Deep Reinforcement Learning (DRL) paradigm, which represents policies by neural networks, PIRL represents policies using a high-level, domain-specific programming language. Such programmatic policies have the benefits of being more easily interpreted than neural networks, and being amenable to verification by symbolic methods. We propose a new method, called Neurally Directed Program Search (NDPS), for solving the challenging nonsmooth optimization problem of finding a programmatic policy with maximal reward. NDPS works by first learning a neural policy network using DRL, and then performing a local search over programmatic policies that seeks to minimize a distance from this neural "oracle". We evaluate NDPS on the task of learning to drive a simulated car in the TORCS car-racing environment. We demonstrate that NDPS is able to discover human-readable policies that pass some significant performance bars. We also show that PIRL policies can have smoother trajectories, and can be more easily transferred to environments not encountered during training, than corresponding policies discovered by DRL.

연구 동기 및 목표

강화 학습에서 특히 안전 중요한 적용 분야에 해석 가능하고 검증 가능한 정책의 필요성을 동기 부여한다.
정책의 해석 가능성과 검증을 가능하게 하는 상위 수준의 프로그래밍 언어를 제안한다.
Neurally Directed Program Synthesis(Ndps)를 도입하여 신경 오라클을 흉내 내며 최적의 프로그래머 정책을 탐색한다.
Ndps가 Torcs 자동차 경주 및 고전 제어 태스크에서 사람 읽을 수 있는 정책을 발견할 수 있음을 보여준다.
프로그래머 정책이 더 매끄럽고 이동 가능하며 기호적 검증에 용이함을 입증한다.

제안 방법

관찰과 행동을 설명하기 위한 원자와 시퀀스가 있는 도메인 특화의 부작용이 없는 기능적 정책 언어를 정의한다.
정책 공간을 제약하는 스케치를 사용하여 priors 구조를 인코딩하고 가지치기를 가능하게 한다.
Ndps를 도입하여 먼저 신경 정책(오라클)을 학습시키고, 그런 다음 관심 있는 입력 집합에서 오라클과의 거리를 최소화하기 위해 프로그래밍 정책에 대한 로컬 탐색을 수행한다.
현재 정책의 trajectories로 히스토리 집합 H를 풍부하게 하기 위한 입력 증강을 사용한다.
베이지안 최적화와 경우에 따라 SMT 기반 방법으로 매개변수를 갖는 정책 템플릿을 최적화한다.
PID 유사 스케치가 있는 Torcs 자동차 경주(Practice Mode) 및 세 가지 고전 제어 게임에서 평가한다.

실험 결과

연구 질문

RQ1상위 수준 정책 언어와 스케치 기반 탐색이 강화 학습 태스크에서 해석 가능하면서도 성능이 우수한 정책을 낳을 수 있는가?
RQ2Ndps가 신경 정책을 근사하면서도 특정 성능 한계를 유지하는 인간이 읽을 수 있는 프로그램을 생성하는가?
RQ3프로그래머 정책이 딥 RL 정책보다 더 매끄럽고 부분 관찰성에 더 강건하며 미지정 환경으로의 이동성이 더 큰가?
RQ4Ndps 생성 정책에 기호적 검증 기법을 적용하여 특정 속성을 보장할 수 있는가?
RQ5새로운 트랙/환경에서 Ndps 정책의 전달성은 DRL과 어떻게 비교되는가?

주요 결과

Ndps는 해석 가능하고 인간이 읽을 수 있는 정책을 발견하여 상당한 성능 한계를 넘어서는 경우가 많지만 항상 DRL 성능에 일치하지는 않는다.
Ndps 정책은 더 매끄러운 궤적을 나타내고 대응되는 신경 정책보다 더 많은 노이즈를 허용할 수 있다.
Ndps 정책은 누락되거나 노이즈가 있는 특징에 대해 강인성을 보이고 DRL에 비해 미지의 트랙으로의 전이가 더 우수하다.
프로그램식 정책은 표준 기호적 기법으로 검증에 적합하며 행동에 대한 형식적 추론이 가능하다.
Torcs에서 Ndps 정책은 DRL 베이스라인보다 더 잘 랩을 완주하고 새로운 트랙에 대한 일반화 능력이 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.