QUICK REVIEW

[論文レビュー] Model-Based Reinforcement Learning with Adversarial Training for Online Recommendation

Xueying Bai, Jian Guan|arXiv (Cornell University)|Nov 10, 2019

Reinforcement Learning in Robotics参考文献 40被引用数 42

ひとこと要約

IRecGANを導入した、モデルベースRLフレームワーク。オフラインデータからオンライン推奨のユーザ挙動とポリシーを対立的学習で学習し、サンプル効率を向上させ、バイアスを低減する。

ABSTRACT

Reinforcement learning is well suited for optimizing policies of recommender systems. Current solutions mostly focus on model-free approaches, which require frequent interactions with the real environment, and thus are expensive in model learning. Offline evaluation methods, such as importance sampling, can alleviate such limitations, but usually request a large amount of logged data and do not work well when the action space is large. In this work, we propose a model-based reinforcement learning solution which models user-agent interaction for offline policy learning via a generative adversarial network. To reduce bias in the learned model and policy, we use a discriminator to evaluate the quality of generated data and scale the generated rewards. Our theoretical analysis and empirical evaluations demonstrate the effectiveness of our solution in learning policies from the offline and generated data.

研究の動機と目的

sparseなオフラインログデータから長期的なユーザ満足度を最大化する推奨ポリシーの学習を動機づける。
ユーザの挙動と相互作用を明示的にモデル化するモデルベースのRLフレームワークを提案する。
対立的な学習と報酬スケーリングを通じてモデルバイアスと不安定なポリシー更新を緩和する。
理論的なバイアス制御の利点とベースラインに対する実証的な効率性を示す。

提案手法

環境をユーザ挙動モデル U と相互作用するエージェント A として表現し、推薦シーケンスを生成する。
再帰型ニューラルネットワークを用いてユーザ状態 s^u_t とエージェント状態 s^a_t を表現し、ソフトマックスに基づくクリックと報酬予測を行う（Eq. 1–2）。
オフラインデータから最大尤度でユーザモデル U を学習し、クリックと報酬を同時に予測する（Eq. 3）。
エージェント A に対してポリシー勾配（REINFORCE）を適用し、オフラインデータと生成データ（g）の双方を用いてポリシーを更新する（Eq. 9–10）。
実データと生成シーケンスを区別する識別器 D を導入し、その出力を用いて（i）ユーザモデルのデバイアスを減らし、（ii）生成報酬をスケールして対立的学習を実現する（Eq. 5–8）。
部分シーケンスのモンテカルロロールアウトによるシーケンス生成スコア q_D を計算し、U と A のガイダンスに用いる（Eq. 6）。

実験結果

リサーチクエスチョン

RQ1オフラインデータを効果的に活用して、モデルベースRLフレームワークを通じてオンライン推奨の高品質ポリシーを学べるか。
RQ2対立的訓練は学習されたユーザモデルのバイアスを削減し、オフラインからオンラインへの設定におけるポリシー学習を改善するか。
RQ3識別器を導入して生成報酬をスケールさせることは、価値推定とポリシー更新の安定性にどのような影響を与えるか。
RQ4オフラインデータと生成データの組み合わせは、オンライン相互作用がコスト高い場合に効果的な学習をもたらすか。
RQ5提案手法はモデルフリーのベースラインや他のオフライン評価手法と比較して、シミュレーション環境でどのように性能を示すか。

主な発見

IRecGAN は、シミュレートされたオンライン評価において、ベースラインと比較してサンプル効率が向上し、競争力のあるまたは優れた性能を示す。
対立的訓練はユーザモデル U が実データのパターンを捉えるのを助け、バイアスを低減しポリシー学習を安定化させる。
識別器ベースの報酬スケーリングは、生成データの価値推定のバイアスを低減し、ポリシー勾配を改善する。
オフラインデータと生成データを組み合わせることで、オンライン相互作用がコスト高い場合でも効果的な学習が可能になる。
エージェントの更新は、生成シーケンスを実データ分布と一致させるシーケンス生成目的から恩恵を受け、さまざまなデータログポリシーの下でベースラインに匹敵またはそれを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。