Skip to main content
QUICK REVIEW

[論文レビュー] Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation

Ziyang Tang, Yihao Feng|arXiv (Cornell University)|Apr 30, 2020
Reinforcement Learning in Robotics参考文献 31被引用数 19
ひとこと要約

本稿では、学習された価値関数と定常密度比推定を組み合わせることでバイアスを低減する無限時間ホライズンのオフポリシー評価の二重に頑健な手法を提案する。この手法は、密度比または価値関数のどちらか一方が正確に推定されればバイアスが消失することを保証し、従来の手法に比べて精度と分散低減の面で顕著な向上を達成する。

ABSTRACT

Infinite horizon off-policy policy evaluation is a highly challenging task due to the excessively large variance of typical importance sampling (IS) estimators. Recently, Liu et al. (2018) proposed an approach that significantly reduces the variance of infinite-horizon off-policy evaluation by estimating the stationary density ratio, but at the cost of introducing potentially high risks due to the error in density ratio estimation. In this paper, we develop a bias-reduced augmentation of their method, which can take advantage of a learned value function to obtain higher accuracy. Our method is doubly robust in that the bias vanishes when either the density ratio or value function estimation is perfect. In general, when either of them is accurate, the bias can also be reduced. Both theoretical and empirical results show that our method yields significant advantages over previous methods.

研究の動機と目的

  • 重要度サンプリングを用いた無限時間ホライズンのオフポリシー評価における高い分散と潜在的なバイアスを是正する。
  • 従来の手法で顕著な誤差を引き起こす可能性がある正確な密度比推定に依存するのを低減する。
  • 学習された価値関数を活用して推定の精度と頑健性を向上させる。
  • 密度比または価値関数の推定が正しい場合に限りバイアスが消失するような手法を開発する。
  • 理論的頑健性と実証的検証を通じて、既存の手法を上回る性能を達成する。

提案手法

  • Liu et al. (2018) の手法に学習された価値関数を組み込んだバイアス低減の拡張を提案する。
  • 重要度サンプリングと価値関数補正を組み合わせた推定量を構築し、バイアスを低減する。
  • 密度比または価値関数が正確に推定されればバイアスが消失するように、推定量を二重に頑健に保証する。
  • 二段階推定手順を採用する:まず定常密度比を推定し、次にオフポリシー・データを用いて価値関数を推定する。
  • 密度比と価値関数に依存する補正項を適用し、推定量の安定性を高め、分散を低減する。
  • 理論的分析により、本手法が従来の手法よりも弱い仮定のもとでも一貫性を保つことが示された。

実験結果

リサーチクエスチョン

  • RQ1正確な密度比推定に依存せず、無限時間ホライズンのオフポリシー評価におけるバイアスを低減できる手法は設計可能か?
  • RQ2価値関数推定と密度比推定を組み合わせることで、オフポリシー評価におけるバイアスと分散にどのような影響を与えるか?
  • RQ3提案手法は、密度比または価値関数のどちらか一方が正しい場合にバイアスが消失する二重に頑健性を達成するか?
  • RQ4推定の精度と分散低減の面で、既存の手法を上回る性能を発揮できるか?
  • RQ5モデルの誤特定の下で、本手法の理論的保証は何か?

主な発見

  • 標準的な重要度サンプリングおよび従来の密度比に基づく手法に比べ、提案手法は顕著な分散低減を達成した。
  • 推定量は二重に頑健である:密度比または価値関数の推定が誤差なくなされれば、バイアスは消失する。
  • 実験結果により、密度比推定が不完全な場合でもLiu et al. (2018) の手法に比べて精度が向上した。
  • 密度比と価値関数の推定に中程度の誤差が生じても、本手法は低いバイアスを維持した。
  • 理論的分析により、本手法が従来の手法よりも弱い仮定のもとでも一貫性を保つことが確認された。
  • 複数の環境において本手法は頑健な性能を示し、オフポリシー評価における実用的有用性を検証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。