QUICK REVIEW

[論文レビュー] Off-policy evaluation for slate recommendation

Adith Swaminathan, Akshay Krishnamurthy|arXiv (Cornell University)|May 16, 2016

Advanced Bandit Algorithms Research参考文献 28被引用数 39

ひとこと要約

この論文は、行動レベルの報酬における線形性仮定を活用することで、NDCG や ERR などの全体ページメトリクスの正確で低データ要件の推定を可能にする、スレート推薦におけるオフポリシー評価のための疑似逆行列推定器（PI）を提案する。この手法は逆プロパティスコアリング（IPS）と比較してサンプル複雑度を指数関数的に削減し、実世界の検索データにおいてパラメトリックおよび不偏ベースラインを上回る性能を示し、最小限の A/B テストで効率的なポリシー最適化を可能にする。

ABSTRACT

This paper studies the evaluation of policies that recommend an ordered set of items (e.g., a ranking) based on some context---a common scenario in web search, ads, and recommendation. We build on techniques from combinatorial bandits to introduce a new practical estimator that uses logged data to estimate a policy's performance. A thorough empirical evaluation on real-world data reveals that our estimator is accurate in a variety of settings, including as a subroutine in a learning-to-rank task, where it achieves competitive performance. We derive conditions under which our estimator is unbiased---these conditions are weaker than prior heuristics for slate evaluation---and experimentally demonstrate a smaller bias than parametric approaches, even when these conditions are violated. Finally, our theory and experiments also show exponential savings in the amount of required data compared with general unbiased estimators.

研究の動機と目的

ログポリシーと標的ポリシーが著しく異なる状況において、ログデータを用いた全体ページ推薦ポリシーの評価という課題に対処すること。
組み合わせ的スレート設定における従来の逆プロパティスコアリング（IPS）推定器の高いデータ要件を低減すること。
線形性仮定が破綻しても低バイアスを維持できる手法を開発し、パラメトリックモデルを上回ること。
エンドツーエンドの学習-ランク付けにおける報酬の補完に PI 推定器を用いることで、効率的なオフポリシー最適化を可能にすること。
多様なスレートメトリクスを有する実世界の検索エンジンデータセットにおいて、実用性と頑健性を実証すること。

提案手法

組み合わせ的バンディット理論に基づく疑似逆行列推定器（PI）を提案し、スレート推薦におけるオフポリシー評価に適応する。
弱い線形性仮定を導入：スレートレベルの報酬は、行動ごとに加法的に分解可能であるが、個々の行動報酬は観測されない。
ログポリシーからのログデータを用いて、選択確率の行列（疑似逆行列）を用いて標的ポリシーの期待報酬を推定する。
各クエリ-ドキュメント-位置のトリプレットを個別のインスタンスとして扱い、位置エンコーディングを含む特徴量を連結する特徴ベースモデルを採用する。
各位置における推定スコアの合計を最大化するグリーディ選択手順を適用し、有効なスレートの構築を保証する。
各クエリごとに推定された行動レベル報酬を平均化することで、より安定した回帰ターゲットを生成する分散低減技術を導入する。

実験結果

リサーチクエスチョン

RQ1非パラメトリックでモデルに依存しない推定器は、スレートメトリクスのオフポリシー評価において、パラメトリックモデルよりも低いバイアスを達成できるか？
RQ2組み合わせ的スレート設定において、逆プロパティスコアリング（IPS）と比較して、疑似逆行列推定器がはるかに少ないサンプル数で低誤差を維持できるか？
RQ3線形性仮定が破綻している場合でも、真の報酬構造が複雑または誤って指定されていようとも、その仮定が正確な推定を可能にする程度はどの程度か？
RQ4PI 推定器がオフポリシー最適化のサブルーチンとして効果的に機能し、A/B テストなしでランク付けポリシーを学習可能か？
RQ5ログカバレッジが低く、標的ポリシーとの重複が乏しいログポリシー下で、推定器の性能はどのように変化するか？

主な発見

実世界の検索データにおいて、疑似逆行列推定器（PI）は、複数のメトリクスとデータサイズにわたり、不偏なIPSおよびバイアスのある直接モデリング（DM）を上回り、最も低いRMSEを達成した。
PI は、IPS の $ m^{ ext{O}( ext{L})} $ のサンプル複雑度を、線形性仮定下で $ ext{O}( ext{L}m/ ext{ε}^2) $ に低減し、データ要件において指数的削減を達成した。
線形性仮定が破綻しても、PI はパラメトリックモデルと比較して顕著に低いバイアスを示し、実用的で頑健であることが実証された。
オフポリシー最適化において、PI-OPT は MSLR-WEB10K で競争力ある性能を示し、標準的な教師あり学習（SUP）ベースラインをランク付け品質で上回った。
極めて鋭いログポリシー下でも PI は低誤差を維持し、ログデータ量の増加に伴い性能が滑らかに向上した。
実験的結果から、各クエリごとに推定された行動レベル報酬を平均化することで、バイアスを導入せずに分散が低減され、回帰の安定性が向上することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。