QUICK REVIEW

[論文レビュー] Learning from Logged Implicit Exploration Data

Alex Strehl, John Langford|arXiv (Cornell University)|Feb 27, 2010

Advanced Bandit Algorithms Research参考文献 13被引用数 105

ひとこと要約

本稿では、ログ記録された非ランダムな探索データから最適な方策を学ぶ手法を提案する。文脈帯域幅設定において、ログ記録方策の行動選択確率が未知で非ランダムな状況を想定している。回帰を用いて行動選択確率を推定し、安定性のしきい値を伴う重要度重み付けを適用することで、ランダム化や探索確率の明示的記録を必要とせずに一貫したオフライン方策学習が可能となる。実世界の広告データにおいて、単純な教師あり学習より優れた性能を達成した。

ABSTRACT

We provide a sound and consistent foundation for the use of \emph{nonrandom} exploration data in "contextual bandit" or "partially labeled" settings where only the value of a chosen action is learned. The primary challenge in a variety of settings is that the exploration policy, in which "offline" data is logged, is not explicitly known. Prior solutions here require either control of the actions during the learning process, recorded random exploration, or actions chosen obliviously in a repeated manner. The techniques reported here lift these restrictions, allowing the learning of a policy for choosing actions given features from historical data where no randomization occurred or was logged. We empirically verify our solution on two reasonably sized sets of real-world data obtained from Yahoo!.

研究の動機と目的

ログ記録された非ランダムな探索データしか入手できない文脈帯域幅設定において、ウォームスタート問題を解決すること。
ログ記録方策の行動確率が不明または決定論的に選ばれている場合に、履歴データから方策学習を可能にすること。
一般化性能が低いか、探索データが不足するため失敗する、教師あり学習や標準的な帯域幅アルゴリズムの限界を克服すること。
オンライン広告などの実世界応用におけるオフライン方策評価と学習に対して、理論的に妥当かつ実証的に検証された手法を提供すること。

提案手法

ログデータ上で回帰を用いて、方策が決定論的であっても、ログ記録方策の行動選択確率 $\hat{\pi}(a|x)$ を推定する。
選択バイアスを是正し、数値的安定性を確保するため、重要度重み $1/\max\{\hat{\pi}(a|x), \tau\}$ を用いて仮想的な文脈帯域幅イベントを構築する。
重み付けされた仮想データセットに標準的なオフライン文脈帯域幅アルゴリズムを適用し、方策 $h(x)$ を学習する。
最大化の対象を、正の推定選択確率を持つ行動に限定することで、観測されない行動への外挿を回避する。
重要度重み付けを用いて、観測済みの行動全般にわたって報酬推定に均等な重みを置くことで、学習のバランスを取る。
ハイパーパrameter $\tau$ を調整して仮説空間の有効な範囲を制御し、より良い一般化を実現する。$\tau$ を小さくすることで、より広い方策探索が可能になる。

実験結果

リサーチクエスチョン

RQ1ログ記錎方策の行動確率が不明で非ランダムな状況において、ログデータから高性能な方策を学習できるか？
RQ2明示的な探索確率が記録されていない場合、オフライン方策学習における選択バイアスをどのように是正できるか？
RQ3推定されたログ記録方策確率を用いた重要度重み付けは、ランダム化がない状況でも一貫的かつ正確な方策評価を可能にするか？
RQ4実際の運用において、$\tau$ の選択が学習済み方策の性能と一般化性能にどのように影響するか？
RQ5この手法は、希少または観測されない行動で一般化性能が低いため失敗する、単純な教師あり学習アプローチを上回ることができるか？

主な発見

提案手法は、未観測の行動で一般化性能が著しく低いためテストセットで報酬がゼロとなった単純な教師あり学習アプローチを顕著に上回った。
τ = 0.05 で学習した方策は、ランダム方策よりも高い推定方策価値を達成しており、性能推定における一貫した動的範囲を示した。
τ を 0.05 から 0.01 に減少させた際、学習済み方策の性能が向上した。これは、より小さい τ が仮説空間を拡大し、学習を向上させることを確認した。
テストセットにおける実測クリックストラクチャート率 0.0213 は、最良の学習済み方策の推定値をわずかに上回っており、推定器が保守的だが信頼性の高い下限を提供していることを示した。
本手法は、学習済み方策とランダム方策、および大規模な行動集合と小規模な行動集合で学習した方策の区別を的確に行い、方策の順序付け能力を検証した。
理論的分析と実証的結果から、本手法が、決定論的かつ入力依存のログ記録方策に対しても、一貫性がありバイアス補正された推定器を提供することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。