QUICK REVIEW

[論文レビュー] Generative Adversarial User Model for Reinforcement Learning Based Recommendation System

Xinshi Chen, Shuang Li|arXiv (Cornell University)|Dec 27, 2018

Advanced Bandit Algorithms Research参考文献 28被引用数 62

ひとこと要約

本研究は、生成対生成 adversarial? Actually GAN-style user model—誤表現. Wait need to translate tldr content exactly into Japanese. The tldr text should be translated, not create new. Original: "The paper proposes a model-based RL framework for recommender systems using a generative adversarial user model to learn user behavior dynamics and rewards, and introduces cascading DQN for efficient combinatorial recommendations." Provide Japanese translation. Let's craft: "本研究は、ユーザの行動ダイナミクスと報酬を学習する生成 adversarial ユーザーモデルを用いた推奨システムのモデルベースRLフレームワークを提案し、大規模な組合せ推奨を効率化するカスケードDQNを導入する。"

ABSTRACT

There are great interests as well as many challenges in applying reinforcement learning (RL) to recommendation systems. In this setting, an online user is the environment; neither the reward function nor the environment dynamics are clearly defined, making the application of RL challenging. In this paper, we propose a novel model-based reinforcement learning framework for recommendation systems, where we develop a generative adversarial network to imitate user behavior dynamics and learn her reward function. Using this user model as the simulation environment, we develop a novel Cascading DQN algorithm to obtain a combinatorial recommendation policy which can handle a large number of candidate items efficiently. In our experiments with real data, we show this generative adversarial user model can better explain user behavior than alternatives, and the RL policy based on this model can lead to a better long-term reward for the user and higher click rate for the system.

研究の動機と目的

推奨における環境が未知で報酬が暗示的な長期的なユーザーエンゲージメントのために強化学習を動機づける。
ユーザーの行動モデルと報酬関数を同時に学習する統一的な、モデルベースのRLフレームワークを提案する。
ユーザーダイナミクスと報酬を共同推定する生成対向訓練手法を開発する。
大規模な候補プールからトップ-kアイテムを効率的に選択するカスケードDQNポリシーを導入する。

提案手法

ユーザの行動を報酬を最大化する連続的意思決定過程として形式化し、ユーザは彼女の報酬を最大化するアイテムを選択し、履歴依存の報酬を持つ。
ユーザー状態を過去にクリックしたアイテムの埋め込みとしてパラメータ化し、報酬関数 r(s,a) を学習済みニューラルネット成分を用いて定義する。
生成対向訓練（GANのようなミニマックス設定）により行動モデル φ と報酬 r を同時に最適化する。
φ と r の安定した初期化と訓練のためにエントロピー正則化の下で閉形式解を提供する。
最大を副集合のカスケードに分解して小さなQ関数の連鎖を作ることで組合せ行動空間を効率的に最適化するカスケードQ-Networks（および関連損失）を開発する。
GANユーザーモデルから構築されたシミュレート環境でポリシーを訓練・評価し、長期報酬とクリック率を予測する。

実験結果

リサーチクエスチョン

RQ1GANベースのユーザーモデルはベースラインよりもユーザー行動と報酬をより良く予測できるか？
RQ2モデルベースRLポリシーはモデルフリーやgreedyベースのベースラインと比較して長期的なユーザー報酬とシステムCTRを改善できるか？
RQ3推奨設定における大規模な組合せ行動空間に対してカスケードQネットワークアプローチはどう機能するか？
RQ4学習したユーザーモデルは新しいダイナミクスや限られた相互作用に対して急速に適応できるか？

主な発見

モデル	reward@k=3	ctr@k=3	reward@k=5	ctr@k=5
W&D-LR	14.46(±0.42)	0.46(±0.01)	15.18(±0.38)	0.48(±0.01)
W&D-CCF	19.93(±1.09)	0.62(±0.03)	20.94(±1.03)	0.65(±0.03)
GAN-Greedy	21.37(±1.24)	0.67(±0.04)	22.97(±1.22)	0.71(±0.03)
GAN-RWD1	22.17(±1.07)	0.68(±0.03)	25.15(±1.04)	0.78(±0.03)
GAN-GDQN	23.60(±1.06)	0.72(±0.03)	23.19(±1.17)	0.70(±0.03)
GAN-CDQN	24.05(±0.98)	0.74(±0.03)	25.36(±1.10)	0.77(±0.03)
DQN-Off	20.31(±0.14)	0.63(±0.01)	21.82(±0.08)	0.67(±0.01)

GAN-PW および GAN-LSTM は複数の実世界データセットにおいてベースラインより予測精度が優れており、GAN-PW は効率と精度のバランスが良い。
GANベースのアプローチは推奨アイテムの累積報酬とCTRを複数の強力なベースライン（例: W&D-LR、W&D-CCF、GAN-Greedy、GAN-RWD1、GAN-GDQN、GAN-CDQN）と比較して高い。
GAN-CDQN は一貫して他のRLポリシーより優れており、報告された表で最高の報酬とCTRを達成している（例：k=3およびk=5の場合）。
カスケードQ-Networkフレームワークは O(k|I|) 計算でトップ-kアイテムを選択でき、候補プールが大規模でも組合せ推奨をスケーラブルにする。
GANベースのモデルは新しいダイナミクスへの適応がモデルフリーアプローチより速く、学習環境モデルを活用してサンプル複雑性が低い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。