QUICK REVIEW

[論文レビュー] Reinforcement Learning based Recommender System using Biclustering Technique

Sungwoon Choi, Heonseok Ha|arXiv (Cornell University)|Jan 17, 2018

Recommender Systems and Techniques参考文献 18被引用数 62

ひとこと要約

論文は、グリッドワールドとして枠組み化されたRLベースのレコメンドシステムを提案し、バイクラスタリングを用いて状態/行動空間を縮小し、オンライン更新と説明性を備えたコールドスタートのレコメンドを改善します。

ABSTRACT

A recommender system aims to recommend items that a user is interested in among many items. The need for the recommender system has been expanded by the information explosion. Various approaches have been suggested for providing meaningful recommendations to users. One of the proposed approaches is to consider a recommender system as a Markov decision process (MDP) problem and try to solve it using reinforcement learning (RL). However, existing RL-based methods have an obvious drawback. To solve an MDP in a recommender system, they encountered a problem with the large number of discrete actions that bring RL to a larger class of problems. In this paper, we propose a novel RL-based recommender system. We formulate a recommender system as a gridworld game by using a biclustering technique that can reduce the state and action space significantly. Using biclustering not only reduces space but also improves the recommendation quality effectively handling the cold-start problem. In addition, our approach can provide users with some explanation why the system recommends certain items. Lastly, we examine the proposed algorithm on a real-world dataset and achieve a better performance than the widely used recommendation algorithm.

研究の動機と目的

連続的な推奨のために強化学習の活用を動機づけ、RLベースのレコメンドシステムにおける大きな行動空間に対処する。
グリッドワールドのようなMDPを作成するためにバイクラスタリングを導入し、状態と行動空間を削減する。
ユーザーフィードバックが動的に報酬と方策を変えるようオンライン更新を有効にする。
特定のバイクラスタ（状態）に推奨を結びつけることで説明可能な推奨を提供する。
Movielensデータセットで経験的に評価し、標準的なベースラインと比較する。

提案手法

推奨システムをn^2のバイクラスタを状態と、最大4方向の行動を持つグリッドワールドMDPとして定式化する。
各状態をバイクラスタ（U,I）にマッピングする。ユーザベクトルの2D埋め込みと貪欲最近傍配置アルゴリズムを用いる。
Q-学習またはSARSAを用いてε-グリーディ探索でQ関数を学習する。
報酬を連続する状態のユーザー集合間のジャカード距離として定義し、類似のユーザーグループを奨励する。
トップ-kの開始状態を選択し、ε-グリーディ方策に従って状態を訪問しアイテムを提案することで推奨を生成する。
観測された満足度に基づいて状態のユーザー集合を調整し、報酬と方策を変化させることでオンライン更新を行う。

実験結果

リサーチクエスチョン

RQ1バイクラスタリングは状態空間と行動空間を十分に削減して、レコメンドシステムにおけるRLを実現可能にできるか？
RQ2グリッドワールド形式のRLベースのアプローチは、コールドスタート条件下で標準的な手法と比較してランキング指標を改善するか？
RQ3このバイクラスタリングベースのRL設定において、Q-learningとSARSAは異なる性能を示すか？
RQ4システムはバイクラスタ状態に基づいて推奨の説明を提供できるか？
RQ5ユーザー-状態の関連のオンライン更新は時間とともに推奨にどのように影響するか？

主な発見

データセット	P@30	R@30
Movielens_100k	0.246	0.169
Movielens_1M	0.277	0.155

提案手法はコールドスタート条件下で Movielens データセットに対して、グローバル平均・ユーザーベース・アイテムベースのベースラインよりも高い P@30 と R@30 を達成する。
提案手法は Movielens_100k で P@30 が 0.246、R@30 が 0.169 を、Movielens_1M で P@30 が 0.277、R@30 が 0.155 を得る。
Q-learningとSARSAはこの環境で似た学習曲線を示し、性能も同等である。
システムは対応するバイクラスタ状態とそのアイテム/ユーザーグループを示すことで推奨を説明できる。
ユーザーフィードバックに基づく状態定義のオンライン更新は報酬を調整し、リアルタイムで推奨を適応させることができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。