QUICK REVIEW

[論文レビュー] A Large-scale Open Dataset for Bandit Algorithms

Yuta Saito, Shunsuke Aihara|arXiv (Cornell University)|Aug 17, 2020

Advanced Bandit Algorithms Research参考文献 50被引用数 5

ひとこと要約

本論文は、ZOZOTOWNファッション通販プラットフォームにおける実世界のインタラクションから得られた大規模なオープンデータセットと標準化されたパイプラインを紹介し、バンドイットアルゴリズムにおけるオフポリシー評価（OPE）を実施する。これにより、OPE推定器の公平なベンチマーク評価が可能となり、良好に性能を発揮する推定器が、実世界の推薦パフォーマンスにおいて歴史的ポリシーを著しく上回る反事実的ポリシーを特定できることを示している。

ABSTRACT

We build and publicize the Open Bandit Dataset and Pipeline to facilitate scalable and reproducible research on bandit algorithms. They are especially suitable for off-policy evaluation (OPE), which attempts to predict the performance of hypothetical algorithms using data generated by a different algorithm. We construct the dataset based on experiments and implementations on a large-scale fashion e-commerce platform, ZOZOTOWN. The data contain the ground-truth about the performance of several bandit policies and enable the fair comparisons of different OPE estimators. We also provide a pipeline to make its implementation easy and consistent. As a proof of concept, we use the dataset and pipeline to implement and evaluate OPE estimators. First, we find that a well-established estimator fails, suggesting that it is critical to choose an appropriate estimator. We then select a well-performing estimator and use it to improve the platform's fashion item recommendation. Our analysis succeeds in finding a counterfactual policy that significantly outperforms the historical ones. Our open data and pipeline will allow researchers and practitioners to easily evaluate and compare their bandit algorithms and OPE estimators with others in a large, real-world setting.

研究の動機と目的

バンドイットアルゴリズムにおけるオフポリシー評価（OPE）推定器を評価するための大規模で実世界のデータセットが不足しているという問題に対処すること。
本番の通販プラットフォームからの実世界データを用いて、OPE推定器の公平かつ再現可能な比較を可能にすること。
バンドイットアルゴリズムおよびOPE手法の実装と評価を一貫して行うための標準化されたパイプラインを提供すること。
反事実的ポリシーが実世界の推薦システムにおいて歴史的ポリシーを著しく上回ることを示すことで、OPEの実用的影響を実証すること。
研究者および実務家が大規模で実世界の環境においてバンドイットアルゴリズムの評価と改善を可能にする支援をすること。

提案手法

データセットは、ZOZOTOWNという大規模なファッション通販プラットフォームに展開された複数のバンドイットポリシーのログ記録から構築されたものである。
データセットには文脈的情報、実行された行動、観測された報酬が含まれており、仮想のポリシーに対する反事実的評価が可能である。
異なる研究環境においてもOPE推定器の実装と評価が一貫するよう、標準化されたパイプラインが提供されている。
著者らはこのデータセットを用いて複数のOPE推定器を評価し、よく知られた推定器における性能ギャップを特定した。
良好に性能を発揮するOPE推定器が選定され、その推定器を用いて反事実的分析を通じてプラットフォームのファッションアイテム推薦ポリシーの最適化が行われた。
データロードから推定器比較までをカバーするエンドツーエンドの評価をサポートするパイプラインであり、再現可能性とスケーラビリティを確保している。

実験結果

リサーチクエスチョン

RQ1本番の通販プラットフォームから得た大規模で実世界のバンドイットデータにおいて、どのOPE推定器が信頼性を持って性能を発揮するか？
RQ2良好に性能を発揮するOPE推定器は、実世界の推薦システムにおいて、歴史的ポリシーを著しく上回る反事実的ポリシーを特定できるか？
RQ3複雑な行動ポリシーを有する実世界のデータに適用した場合、既存のOPE推定器の性能はどの程度低下するか？
RQ4OPEはオンラインA/Bテストなしで、安全かつスケーラブルなポリシー改善をどの程度可能にするか？
RQ5提案されたデータセットおよびパイプラインは、バンドイットアルゴリズムの一貫性および再現可能な評価をどの程度可能にするか？

主な発見

よく知られたOPE推定器が、実世界のデータセットでは正確な性能推定を提供できないことが判明し、実務における推定器選定の重要性が浮き彫りになった。
別の良好に性能を発揮するOPE推定器が、推薦システムにおいて歴史的ポリシーを著しく上回る反事実的ポリシーを的確に特定した。
提案されたデータセットおよびパイプラインにより、異なる研究環境間でOPE推定器の一貫性および再現可能な評価が可能になった。
OPEを用いて発見された反事実的ポリシーは、推薦パフォーマンスの測定可能な向上をもたらし、オフポリシー評価の実用的価値を実証した。
データセットおよびパイプラインは、バンドイットアルゴリズムの大規模で実世界のベンチマーク評価を支援し、公平な比較とOPE手法の発展を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。