QUICK REVIEW

[논문 리뷰] Verifiable Reinforcement Learning via Policy Extraction

Osbert Bastani, Yewen Pu|arXiv (Cornell University)|2018. 05. 22.

Reinforcement Learning in Robotics참고 문헌 33인용 수 115

한 줄 요약

이 논문은 고성능 DNN 오라클과 그 Q-함수에서 압축적이고 검증 가능한 결정 트리 정책을 추출하는 방법인 Viper를 소개하여 강화학습 과제의 안전성, 강건성, 안정성의 효율적 검증을 가능하게 한다.

ABSTRACT

While deep reinforcement learning has successfully solved many challenging control tasks, its real-world applicability has been limited by the inability to ensure the safety of learned policies. We propose an approach to verifiable reinforcement learning by training decision tree policies, which can represent complex policies (since they are nonparametric), yet can be efficiently verified using existing techniques (since they are highly structured). The challenge is that decision tree policies are difficult to train. We propose VIPER, an algorithm that combines ideas from model compression and imitation learning to learn decision tree policies guided by a DNN policy (called the oracle) and its Q-function, and show that it substantially outperforms two baselines. We use VIPER to (i) learn a provably robust decision tree policy for a variant of Atari Pong with a symbolic state space, (ii) learn a decision tree policy for a toy game based on Pong that provably never loses, and (iii) learn a provably stable decision tree policy for cart-pole. In each case, the decision tree policy achieves performance equal to that of the original DNN policy.

연구 동기 및 목표

안전-critical RL 환경에서 검증 가능한 정책의 필요성을 동기화한다.
깊은 정책에서 검증 가능하고 비매개적(decision-tree) 정책을 산출하는 정책 추출 파이프라인을 개발한다.
Q-함수를 활용하여 샘플 효율성과 정책 크기를 이전 imitation-learning 기반보다 개선한다.
여러 작업에 걸친 정확성, 강건성, 안정성 분석을 통해 검증 가능성을 입증한다.

제안 방법

Q-Dagger를 정의한다. 이 알고리즘은 오라클의 Q-함수를 이용해 학습을 안내한다.
Viper를 도입한다. 이는 볼록 손실 대리함수에 기반한 가중치로 데이터를 재샘플링하고 CART로 트리를 학습시켜 결정 트리 정책을 추출한다.
Q-Dagger에 비해 더 촘촘한 성능 경계가 더 빡빡하다는 이론적 비교를 제시한다.
선정된 작업에서 최적 또는 완벽한 보상을 달성하는 작은 트리를 추출하기 위해 Viper를 적용한다.
추출된 트리에 대해 올바름(토이 Pong), 강건성(아타리 Pong), 안정성(cart-pole)을 점검하는 검증 기법을 적용한다.

실험 결과

연구 질문

RQ1DNN 오라클에서 학습된 결정 트리 정책이 원래 정책의 성능에 근접할 수 있는가?
RQ2 imitation learning에서 Q-함수를 활용하면 Dagger보다 더 작고 검증 가능한 정책을 얻을 수 있는가?
RQ3추출된 결정 트리 정책이 벤치마크 작업에서 올바름, 강건성, 안정성을 효율적으로 검증할 수 있는가?
RQ4정책 크기, 검증 가능성, 달성된 보상 사이의 트레이드오프는 무엇인가?

주요 결과

Viper는 Atari Pong(상징적 상태 공간), Pong 기반 토이 게임, cart-pole에서 완벽하거나 거의 완벽한 보상을 달성하는 상대적으로 작은 트리(<1000 노드)를 학습한다.
Dagger와 비교할 때, Viper는 오라클 성능을 유지하면서 훨씬 작은 트리(예: 수천 대 vs 수천)로 생성한다.
Viper는 DNN 정책과 호환 가능한 접근 방식보다 올바름, 강건성, 안정성의 검증을 더 효율적으로 가능하게 한다.
Atari Pong에서 Viper 유래 트리는 완벽한 보상을 달성했고, 여러 샘플 상태에서 강건성은 측정 가능한 여백으로 정량화되었다.
cart-pole에서는 작은 트리가 완벽한 보상을 달성했고, degree-5 Taylor 모델에 대한 SOS 기반 방법으로 원점 주위의 안정성이 검증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.