QUICK REVIEW

[論文レビュー] Off-Policy Evaluation via Off-Policy Classification

Alexander Irpan, Kanishka Rao|arXiv (Cornell University)|Jan 1, 2019

Reinforcement Learning in Robotics被引用数 15

ひとこと要約

本論文は、スパースなバイナリ報酬を伴う連続的制御における深層強化学習のための新しいオフポリシー評価（OPE）手法を提案する。OPEを環境モデルや重要度サンプリングに依存しない陽性-未陽性（PU）分類問題として定式化することで、相対的ポリシー性能の予測において優れた性能を発揮し、特に画像ベースのロボット操作タスクにおけるシミュレーションから実世界への転送において顕著である。

ABSTRACT

In this work, we consider the problem of model selection for deep reinforcement learning (RL) in real-world environments. Typically, the performance of deep RL algorithms is evaluated via on-policy interactions with the target environment. However, comparing models in a real-world environment for the purposes of early stopping or hyperparameter tuning is costly and often practically infeasible. This leads us to examine off-policy policy evaluation (OPE) in such settings. We focus on OPE of value-based methods, which are of particular interest in deep RL with applications like robotics, where off-policy algorithms based on Q-function estimation can often attain better sample complexity than direct policy optimization. Furthermore, existing OPE metrics either rely on a model of the environment, or the use of importance sampling (IS) to correct for the data being off-policy. However, for high-dimensional observations, such as images, models of the environment can be difficult to fit and value-based methods can make IS hard to use or even ill-conditioned, especially when dealing with continuous action spaces. In this paper, we focus on the specific case of MDPs with continuous action spaces and sparse binary rewards, which is representative of many important real-world applications. We propose an alternative metric that relies on neither models nor IS, by framing OPE as a positive-unlabeled (PU) classification problem. We experimentally show that this metric outperforms baselines on a number of tasks. Most importantly, it can reliably predict the relative performance of different policies in a number of generalization scenarios, including the transfer to the real-world of policies trained in simulation for an image-based robotic manipulation task.

研究の動機と目的

現実世界の深層強化学習応用において、オンポリシー評価が高コストかつ現実的でない問題に対処すること。
スパースなバイナリ報酬を伴う連続的行動空間における価値ベース手法の信頼性の高いオフポリシー評価指標を開発すること。
高次元の観測（例：画像）において不安定または非現実的である環境モデルや重要度サンプリングに依存しないこと。
シミュレーション内での有効なモデル選択、ハイパーパramータチューニング、および早期停止を可能にすること。
シミュレーションから実世界のロボット操作タスクへのポリシー転送における一般化性能予測を向上させること。

提案手法

提示された軌道を陽性、その他の軌道を未陽性として扱うことで、オフポリシー評価を陽性-未陽性（PU）分類問題として定式化する。
状態-行動ペアから抽出した特徴量を用いて、与えられた軌道がターゲットポリシーによって生成された確率を分類器が推定する。
分類器の識別性能を向上させるために、対照的学習の目的関数を用いて特徴表現の質を向上させる。
分類による軌道の相対的順序に基づいて、重要度サンプリングや環境モデルの適合を回避する。
監視信号として性能の相対的順序のみを用い、オンポリシーおよびオフポリシーの軌道を行動ポリシーから収集した混合データで分類器を訓練する。
最終的なOPEスコアは、分類器がオンポリシー軌道の予測確率から導出され、期待報酬の代理指標として機能する。

実験結果

リサーチクエスチョン

RQ1環境モデルや重要度サンプリングに依存せずに、PU分類ベースの指標が相対的ポリシー性能を信頼性高く推定できるか？
RQ2本手法は、画像ベースのロボット操作タスクにおけるシミュレーションから実世界への転送にどの程度一般化できるか？
RQ3高次元連続的制御設定において、真のオンポリシー性能との相関性において、既存のOPEベースラインを上回るか？
RQ4連続的行動空間における分布シフトやスパースなバイナリ報酬に対して、本手法はどの程度頑健か？
RQ5本手法は、現実世界のRLデプロイメントパイプラインにおける有効なハイパーパramータチューニングおよび早期停止を可能にするか？

主な発見

提案手法のPUベースOPEは、特に画像入力のような高次元観測設定において、既存のベースラインよりも真のオンポリシー性能との相関性が高くなる。
本手法は、ロボット操作タスクにおけるシミュレーションから実世界への転送を含む、複数の一般化シナリオにおいて、相対的ポリシー性能を的確に予測できる。
連続的行動空間とスパースなバイナリ報酬を扱う際、モデルベースおよび重要度サンプリングベースのOPE手法に比べ、安定性と正確性の両面で優れている。
分類器ベースのアプローチは、行動ポリシーとターゲットポリシーが著しく異なる場合でも、分布シフトに対して頑健であり、信頼性の高い性能を維持する。
本手法は、シミュレーション内での有効なモデル選択と早期停止を可能にし、高価な現実世界のロールアウトの必要性を低減する。
実験的結果から、PU分類指標は、画像観測を伴うテーブルタブルおよび連続的制御環境において、実際の報酬と強く相関することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。