[論文レビュー] Infinite-horizon Off-Policy Policy Evaluation with Multiple Behavior Policies
本稿では、複数の行動方策を活用して、状態および状態行動定常分布補正の推定における分散を低減する、新しい非政策評価手法である推定混合方策(EMP)を提案する。EMPは、政策に依存しない推定と構造的インダクティブバイアスを組み合わせることで、無限時間スパンの非政策評価において精度を向上させ、連続的および離散的環境で最先端の手法を上回る性能を発揮する。
We consider off-policy policy evaluation when the trajectory data are generated by multiple behavior policies. Recent work has shown the key role played by the state or state-action stationary distribution corrections in the infinite horizon context for off-policy policy evaluation. We propose estimated mixture policy (EMP), a novel class of partially policy-agnostic methods to accurately estimate those quantities. With careful analysis, we show that EMP gives rise to estimates with reduced variance for estimating the state stationary distribution correction while it also offers a useful induction bias for estimating the state-action stationary distribution correction. In extensive experiments with both continuous and discrete environments, we demonstrate that our algorithm offers significantly improved accuracy compared to the state-of-the-art methods.
研究の動機と目的
- 複数の行動方策から収集されたデータにおいて、正確な非政策評価を実現する課題に対処すること。
- 無限時間スパンの非政策評価において極めて重要な、定常分布補正の推定における分散を低減すること。
- 状態行動分布補正の推定に有用なインダクティブバイアスを組み込みつつ、政策に依存しない推定を維持する手法を導入すること。
- 離散的および連続的制御環境の両方において、既存の最先端手法を上回る推定精度を向上させること。
提案手法
- 定常分布補正を推定するための部分的に政策に依存しない手法のクラスとして、推定混合方策(EMP)を提案する。
- 複数の行動方策からの実証データを用いて、状態定常分布補正の混合ベース推定器を構築する。
- 理論的分析を精査することで、EMPが状態定常分布推定における分散を低減することを示す。
- 構造的インダクティブバイアスを組み込んで、状態行動定常分布補正の推定を改善する。
- 複数の行動方策のデータを統合することで、非政策評価におけるロバスト性と分散の低減を図る。
- 行動方策の混合を活用して、行動方策の完全な知識がなくても一般化性と推定精度を向上させること。
実験結果
リサーチクエスチョン
- RQ1複数の行動方策を効果的に統合することで、無限時間スパンの非政策評価における分散を低減できるか?
- RQ2提案されたEMP手法は、既存の政策に依存しないアプローチと比較して、推定精度をどのように向上させるか?
- RQ3構造的インダクティブバイアスは、状態行動定常分布補正の推定にどのような影響を及えるか?
- RQ4EMPは多様な環境において、どのように最先端の手法を上回るか?
- RQ5行動方策の混合は、定常分布補正推定の安定性と精度にどのような影響を及えるか?
主な発見
- EMPは、混合ベース推定により、状態定常分布補正の推定における分散を顕著に低減する。
- 本手法は、状態行動定常分布補正の推定精度を向上させる有用なインダクティブバイアスを提供する。
- 実験結果から、連続的および離散的環境の両方において、EMPは最先端の手法を上回る推定精度を達成することが示された。
- 提案手法は、多様な強化学習ベンチマークにおいて一貫した性能向上を示した。
- 理論的分析により、EMPは低分散推定を維持しながらも、政策に依存しない特性を保つことが確認された。
- 実験により、複数の行動方策を用いることで、無限時間スパンの設定下でよりロバストで正確な非政策評価が実現することが検証された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。