Skip to main content
QUICK REVIEW

[論文レビュー] CoinDICE: Off-Policy Confidence Interval Estimation

Bo Dai, Ofir Nachum|arXiv (Cornell University)|Jan 1, 2020
Reinforcement Learning in Robotics被引用数 11
ひとこと要約

CoinDICE は、一般化推定方程式と実証的尤度を用いて、漸近的および有限標本の両 regime において有効な信頼区間を生成する、新しい効率的なオフポリシー信頼区間推定アルゴリズムを提案する。複数のベンチマークにおいて、既存の手法と比較してよりきめ細かく正確な信頼区間を達成する。

ABSTRACT

We study high-confidence behavior-agnostic off-policy evaluation in reinforcement learning, where the goal is to estimate a confidence interval on a target policy's value, given only access to a static experience dataset collected by unknown behavior policies. Starting from a function space embedding of the linear program formulation of the $Q$-function, we obtain an optimization problem with generalized estimating equation constraints. By applying the generalized empirical likelihood method to the resulting Lagrangian, we propose CoinDICE, a novel and efficient algorithm for computing confidence intervals. Theoretically, we prove the obtained confidence intervals are valid, in both asymptotic and finite-sample regimes. Empirically, we show in a variety of benchmarks that the confidence interval estimates are tighter and more accurate than existing methods.

研究の動機と目的

  • 行動方策の知識を必要とせずに有効な信頼区間を生成するオフポリシー評価手法の開発を目的とする。
  • 漸近的および有限標本の両設定において信頼区間の有効性を保証することを目的とする。
  • 既存のオフポリシー評価手法と比較して、信頼区間推定のきめ細かさと正確さを向上させることを目的とする。
  • 静的データセットを未知の行動方策が収集したものとして扱い、行動方策に依存しない推定を可能とすることを目的とする。

提案手法

  • 本手法は、Q関数の線形計画法定式化の関数空間埋め込みから出発する。
  • Q関数の制約から導かれる一般化推定方程式(GEE)制約を備えた最適化問題を定式化する。
  • 制約付き最適化問題のラグランジュ関数に一般化実証的尤度法を適用する。
  • その結果得られるアルゴリズムであるCoinDICEは、この変換された最適化問題を解くことで信頼区間を計算する。
  • このアプローチにより、漸近的および有限標本設定の両方において理論的保証を通じて信頼区間の有効性が保証される。

実験結果

リサーチクエスチョン

  • RQ1未知の行動方策のもとで有効な信頼区間を構築することは可能か?
  • RQ2オフポリシー評価における信頼区間の有限標本有効性をどのように確保できるか?
  • RQ3既存手法と比較して、信頼区間のきめ細かさと正確さを向上させることは可能か?
  • RQ4この文脈において、一般化推定方程式と実証的尤度の使用がもたらす影響は何か?

主な発見

  • CoinDICE は、漸近的および有限標本の両 regime において有効な信頼区間を生成する。
  • CoinDICE が生成する信頼区間は、既存のオフポリシー評価手法が生成するものよりもきめ細かい。
  • 実験的結果から、複数のベンチマークにおいて CoinDICE は信頼区間推定の正確性がより高いことが示された。
  • 本手法は行動方策に依存せず、データセットを生成した方策の知識が不要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。