QUICK REVIEW

[論文レビュー] Programmatically Interpretable Reinforcement Learning

Abhinav Verma, Vijayaraghavan Murali|arXiv (Cornell University)|Apr 6, 2018

Adversarial Robustness in Machine Learning参考文献 35被引用数 97

ひとこと要約

Pirl は人間が読めるプログラムとして表現されたポリシーを学習し、ニューラルポリシーオラクル（Ndps）に導かれ、解釈可能で検証可能な制御ポリシーを実現します。これは深層RLより転送が良いケースがある場合があります。

ABSTRACT

We present a reinforcement learning framework, called Programmatically Interpretable Reinforcement Learning (PIRL), that is designed to generate interpretable and verifiable agent policies. Unlike the popular Deep Reinforcement Learning (DRL) paradigm, which represents policies by neural networks, PIRL represents policies using a high-level, domain-specific programming language. Such programmatic policies have the benefits of being more easily interpreted than neural networks, and being amenable to verification by symbolic methods. We propose a new method, called Neurally Directed Program Search (NDPS), for solving the challenging nonsmooth optimization problem of finding a programmatic policy with maximal reward. NDPS works by first learning a neural policy network using DRL, and then performing a local search over programmatic policies that seeks to minimize a distance from this neural "oracle". We evaluate NDPS on the task of learning to drive a simulated car in the TORCS car-racing environment. We demonstrate that NDPS is able to discover human-readable policies that pass some significant performance bars. We also show that PIRL policies can have smoother trajectories, and can be more easily transferred to environments not encountered during training, than corresponding policies discovered by DRL.

研究の動機と目的

強化学習において解釈可能で検証可能なポリシーが必要であること、特に安全性が重要な応用分野における動機づけ。
解釈性と検証を可能にするポリシーのハイレベルなプログラミング言語を提案。
Neurally Directed Program Synthesis (Ndps) を導入し、ニューラルオラクルを模倣して最適なプログラム的ポリシーを探索。
Ndps が Torcs のカーレースや古典的制御タスクで人間が読めるポリシーを発見できることを示す。
プログラム的ポリシーがより滑らかで転送性が高く、記号的検証に適していることを示す。

提案手法

観察と行動を記述するアトムとシーケンスを用いた、副作用のないドメイン特化型の機能的ポリシー言語を定義。
スケッチを用いてポリシー空間を制約し、事前の構造をエンコードしてプルーニングを可能にする。
Ndps を導入。まずニューラルポリシー（オラクル）を訓練し、その後、関心のある入力集合に対するオラクルとの距離を最小化するようにローカルサーチを行うプログラム的ポリシーを実行。
現在のポリシーからの軌跡を歴史集合 H に取り入れるための入力拡張を採用。
ベイズ最適化や場合によっては SMT ベースの手法を用いて、パラメータを含むプログラムテンプレートを最適化。
PID 風のプログラム・スケッチを用いた Torcs カーレース（Practice Mode）と3つの古典制御ゲームで評価。

実験結果

リサーチクエスチョン

RQ1高レベルのポリシー言語とスケッチベースの探索は、強化学習タスクにおいて解釈可能でありつつ高性能なポリシーを生み出すのか。
RQ2Ndps はニューラルポリシーを近似しつつ、特定の性能指標を維持できる人間が読めるプログラムを生成するか。
RQ3プログラム的ポリシーは、滑らかで、部分観測に対してロバストで、深層 RL ポリシーより unseen 環境への転送性が高いか。
RQ4Ndps 生成ポリシーに対して記号的検証手法を適用し、特定の性質を保証できるか。
RQ5Ndps ポリシーの転送性は、新しいトラック/環境で DRL と比較してどうなるか。

主な発見

モデル	CG-Speedway-1 周回時間	CG-Speedway-1 報酬	Aalborg 周回時間	Aalborg 報酬
Drl	54.27	118.39	1:49.66	71.23
Naive	2:07.09	58.72	Timeout	-
NoAug	Timeout	-	Timeout	-
NoSketch	Timeout	-	Timeout	-
NoIF	1:01.60	115.25	2:45.13	52.81
Ndps	1:01.56	115.32	2:38.87	54.91

Ndps は、重要な性能指標を満たす解釈可能で人間が読めるポリシーを発見するが、必ずしも DRL の性能に匹敵するとは限らない。
Ndps ポリシーはより滑らかな軌道を示し、対応するニューラルポリシーよりノイズを多く許容できる。
Ndps ポリシーは欠損/ノイズのある特徴に対しての頑健性を示し、DRL と比べて unseen トラックへの転送が優れる。
プログラム的ポリシーは標準的な記号技術を用いた検証に適しており、挙動についての形式的推論を可能にする。
Torcs では、Ndps ポリシーは DRL ベースラインより転送シナリオで新しいトラックを解決し generalize できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。