QUICK REVIEW

[論文レビュー] Deep reinforcement learning for search, recommendation, and online advertising: a survey

Xiangyu Zhao, Long Xia|arXiv (Cornell University)|Dec 18, 2018

Advanced Bandit Algorithms Research被引用数 44

ひとこと要約

深層強化学習が検索、推奨、オンライン広告にどのように適用されているかの包括的な調査であり、基盤、代表的なアルゴリズム、応用、および将来の方向性を詳述する。

ABSTRACT

Search, recommendation, and online advertising are the three most important information-providing mechanisms on the web. These information seeking techniques, satisfying users' information needs by suggesting users personalized objects (information or services) at the appropriate time and place, play a crucial role in mitigating the information overload problem. With recent great advances in deep reinforcement learning (DRL), there have been increasing interests in developing DRL based information seeking techniques. These DRL based techniques have two key advantages -- (1) they are able to continuously update information seeking strategies according to users' real-time feedback, and (2) they can maximize the expected cumulative long-term reward from users where reward has different definitions according to information seeking applications such as click-through rate, revenue, user satisfaction and engagement. In this paper, we give an overview of deep reinforcement learning for search, recommendation, and online advertising from methodologies to applications, review representative algorithms, and discuss some appealing research directions.

研究の動機と目的

情報検索タスクにおける動的なユーザー嗜好に対処するための強化学習の活用を動機づける。
検索、推奨、広告におけるRLの方法論的基盤を要約する。MAB、MDP、POMDP、およびポリシー学習を含む。
検索、推奨、オンライン広告の三分野における代表的なDRLアルゴリズムとシステムをレビューする。
RLベースの情報検索システムを進展させるための課題と将来の方向性を論じる。

提案手法

RLの技術的基礎と問題定式化（MAB、MDP、POMDP、マルチエージェント設定）を提示する。
モデルベースとモデルフリーのRL、価値ベースとポリシーベースのアプローチ（Q-learning、DQN、Actor-Critic）を区別する。
検索タスクにおけるRL応用を調査する：クエリ理解、ランキング、全ページ最適化、セッション検索。
推奨におけるRL応用を調査する：エクスプロイト／探索、時系列ダイナミクス、長期的エンゲージメント、ページ単位の推奨。
オンライン広告におけるRL応用を調査する：保証配信とリアルタイム入札、モデルベースおよびモデルフリーのアプローチを含む。

実験結果

リサーチクエスチョン

RQ1検索、推奨、広告タスクにおいてRLフレームワークは動的なユーザー行動をどのようにモデル化できるか？
RQ2各情報探索ドメインで効果的とされる主要なRLアルゴリズムとアーキテクチャは何か？
RQ3検索、推奨、オンライン広告へのDRLの適用における未解決課題は何か、将来の研究に有望な方向性は何か？
RQ4検索、推奨、広告の分野横断的な協力をRLを通じてどのように活用できるか？

主な発見

本調査は情報探索に関連するコアなRL基礎（MAB、MDP、POMDP、およびマルチエージェント形式）を概説する。
検索と推奨におけるランキング、多様性、セッションモデリング、ページ表示に用いられる代表的なDRL手法を要約する。
オンライン広告におけるDRLベースの戦略を、入札、予算配分、協調/マルチエージェントアプローチを含めてレビューする。
長期報酬とユーザーエンゲージメントを、直近のクリックや表示回数を超えるベンチマークとして重視している点を強調する。
横断シナリオ協調RL、より豊かな報酬設計、拡張されたユーザー–エージェント相互作用、オフライン/オンライン評価ツールなどの将来の方向性を論じている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。