QUICK REVIEW

[論文レビュー] Doubly Robust Policy Evaluation and Learning

Miroslav Dudı́k, John Langford|arXiv (Cornell University)|Mar 23, 2011

Advanced Bandit Algorithms Research参考文献 13被引用数 302

ひとこと要約

本稿では、文脈的バンディット設定における方策評価と学習のための二重にロバスト（DR）手法を提案する。報酬モデルと逆確率スコアリングを組み合わせることで、いずれのモデルが正確であっても不偏推定を達成する。この手法は、既存の手法に比べて分散を低減し、精度を向上させ、実験結果では価値推定における平均13.6％のRMSE低減を一貫して示し、方策最適化において優れた性能を発揮する。

ABSTRACT

We study decision making in environments where the reward is only partially observed, but can be modeled as a function of an action and an observed context. This setting, known as contextual bandits, encompasses a wide variety of applications including health-care policy and Internet advertising. A central task is evaluation of a new policy given historic data consisting of contexts, actions and received rewards. The key challenge is that the past data typically does not faithfully represent proportions of actions taken by a new policy. Previous approaches rely either on models of rewards or models of the past policy. The former are plagued by a large bias whereas the latter have a large variance. In this work, we leverage the strength and overcome the weaknesses of the two approaches by applying the doubly robust technique to the problems of policy evaluation and optimization. We prove that this approach yields accurate value estimates when we have either a good (but not necessarily consistent) model of rewards or a good (but not necessarily consistent) model of past policy. Extensive empirical comparison demonstrates that the doubly robust approach uniformly improves over existing techniques, achieving both lower variance in value estimation and better policies. As such, we expect the doubly robust approach to become common practice.

研究の動機と目的

歴史的データが新しい方策の行動分布を反映しない文脈的バンディットにおける正確な方策評価の課題に対処する。
報酬モデルが不正確な場合に高いバイアスを示す直接法の限界と、行動方策モデルが不正確な場合に高い分散を示す逆確率スコアリングの限界を克服する。
いずれのモデル（報酬モデルまたは行動方策モデル）が正確であっても不偏推定を保証する統一されたフレームワークを構築する。
二重にロバストなアプローチが、既存の手法に比べて推定精度と方策最適化を一貫して向上させることを示す。

提案手法

文脈的バンディット方策評価に二重にロバスト推定技術を適用し、報酬モデルと行動方策モデルを統合する。
逆確率スコアリングと報酬モデル予測の重み付き組み合わせを用いて、いずれの成分が正しい場合でも不偏推定量を得る。
二重にロバスト推定量を次式で定式化する：$\hat{V}_{\text{DR}} = \sum_i \frac{\mathbf{1}(a_i = a) \cdot r_i}{\hat{e}(a|x_i)} + \hat{\varrho}(x_i) \cdot \left(1 - \frac{\mathbf{1}(a_i = a)}{\hat{e}(a|x_i)} \right)$、ここで$\hat{e}$は推定された行動方策、$\hat{\varrho}$は報酬モデルを表す。
勾配更新による方策重みの最適化を直接損失最小化で行い、DR推定値を学習を導く。
報酬モデル$\hat{\varrho}(x)$の学習にはリッジ回帰を用い、行動方策確率$\hat{e}(a|x)$の推定にはロジスティック回帰または類似手法を用いる。
合成ベンチマークおよびYahoo!ニュースのスケールの大きな実世界データセットの両方で性能を評価し、DRをIPSおよび直接法と比較する。

実験結果

リサーチクエスチョン

RQ1報酬モデルまたは行動方策モデルのいずれかが不正確であっても、二重にロバスト推定量が文脈的バンディットにおける方策価値推定を改善できるか？
RQ2バイアス、分散、推定精度という観点から、二重にロバスト法は逆確率スコアリング法および直接法に比べてどのように異なるか？
RQ3二重にロバスト推定量の使用が、実際の状況においてより優れた方策最適化をもたらすか？
RQ4非漸近的設定におけるモデル品質が、二重にロバスト推定量の性能に与える影響は何か？

主な発見

二重にロバスト推定量は、逆確率スコアリング法よりも推定誤差を一貫して低減し、実験全体で平均13.6％のRMSE低減を達成した。
DR推定量は特にデータセットサイズが小さい場合に、IPSよりも低い分散を示し、真の方策価値への収束を加速した。
報酬モデルまたは行動方策モデルのいずれかが誤りであっても、バイアスが低く保たれ、ロバスト性を示した。
実験結果から、DRに基づく方策学習がIPSおよび直接法を上回り、より優れた性能を発揮する方策を生成することが明らかになった。
大規模なYahoo!ニュースデータセットを用いた実世界実験では、DRが特にデータが少ない状況で、価値推定の精度を顕著に向上させた。
理論的分析から、DR推定量のバイアスと分散は、両方のモデルが真の値からどれほど逸脱しているかに依存することが示され、その性能に原理的根拠を与えた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。