QUICK REVIEW

[論文レビュー] Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application

Yujing Hu, Qing Da|arXiv (Cornell University)|Mar 2, 2018

Optimization and Search Problems参考文献 31被引用数 37

ひとこと要約

本論文は、複数ステップにわたる検索セッションを検索セッションマルコフ決定過程（SSMDP）としてモデル化することで、eコマース検索順序付けの強化学習アプローチを提案する。このアプローチは、順序付けステップ間の逐次的依存関係を捉える。また、報酬の分散を低減し、方策学習を向上させるために、完全バックアップ推定を備えた新しい決定的方策勾配アルゴリズム（DPG-FBE）を導入し、シミュレーションで40%以上、タオバオでの本番環境展開で30%の売上高増加を達成した。

ABSTRACT

In e-commerce platforms such as Amazon and TaoBao, ranking items in a search session is a typical multi-step decision-making problem. Learning to rank (LTR) methods have been widely applied to ranking problems. However, such methods often consider different ranking steps in a session to be independent, which conversely may be highly correlated to each other. For better utilizing the correlation between different ranking steps, in this paper, we propose to use reinforcement learning (RL) to learn an optimal ranking policy which maximizes the expected accumulative rewards in a search session. Firstly, we formally define the concept of search session Markov decision process (SSMDP) to formulate the multi-step ranking problem. Secondly, we analyze the property of SSMDP and theoretically prove the necessity of maximizing accumulative rewards. Lastly, we propose a novel policy gradient algorithm for learning an optimal ranking policy, which is able to deal with the problem of high reward variance and unbalanced reward distribution of an SSMDP. Experiments are conducted in simulation and TaoBao search engine. The results demonstrate that our algorithm performs much better than online LTR methods, with more than 40% and 30% growth of total transaction amount in the simulation and the real application, respectively.

研究の動機と目的

既存の学習による順序付け手法が、各順序付けステップを独立して扱い、ユーザー検索セッション内の逐次的依存関係を無視するという限界を解消すること。
状態、行動、報酬、遷移関数を備えたマルコフ決定過程（SSMDP）として、複数ステップのeコマース検索を形式的にモデル化すること。
順次的検索インタラクションにおいて、単一ステップの報酬ではなく、累積報酬を最大化することが理論的に必要かつ有益であることを正当化すること。
SSMDPにおける高い報酬分散と不均衡な報酬分布に耐えうる、安定した方策勾配アルゴリズム（DPG-FBE）を設計すること。
本手法をシミュレーションおよび実世界のタオバオ検索エンジンで実証的に検証し、最先端のLTR手法を上回る優れたパフォーマンスを示すこと。

提案手法

複数ステップの検索セッションを検索セッションマルコフ決定過程（SSMDP）として形式化し、状態空間、行動空間、報酬関数、状態遷移ダイナミクスを定義する。
高分散・不均衡報酬環境における学習を安定化させるために、新しい方策勾配アルゴリズムであるDPG-FBE（完全バックアップ推定を備えた決定的方策勾配）を提案する。
将来の報酬をより正確に組み込むことで、価値関数の近似を改善し、方策更新の分散を低減するため、完全バックアップ推定を用いる。
ログセンターとオンラインキーバリュー（KV）システムを活用し、リアルタイムのモデル更新を実現するデータストリーム駆動型オンラインRLシステムを実装する。
本番環境での低遅延推論を確保するため、エクスプロイト（行動）ネットワークとクリティック（評価）ネットワークにそれぞれ80および64ユニットの小規模な深層ニューラルネットワークを採用する。
DPG-FBEアルゴリズムをタオバオの検索エンジンに統合し、DDPGおよびオフラインLTRベースラインと比較するA/Bテストを実施する。

実験結果

リサーチクエスチョン

RQ1複数ステップの検索セッションを逐次的意思決定プロセス（SSMDP）としてモデル化することで、独立したステップのモデル化に比べて、より優れた順序付けパフォーマンスが得られるか？
RQ2全検索セッションにわたる累積報酬を最大化することが、個々の順序付けステップの最適化と比較して理論的に必要かつ有益であるか？
RQ3高い報酬分散と不均衡な報酬分布を特徴とするSSMDPにおいて、高耐性な報酬分布に特化した方策勾配アルゴリズムが、標準的なRLおよびLTR手法を上回るか？
RQ4提案されたDPG-FBEアルゴリズムが、実世界のeコマース取引量において測定可能な改善を達成するか？
RQ5リアルタイムのユーザーフィードバックを伴う生産ワークロード下で、オンラインRLシステムはスケーラブルに動作するか？

主な発見

提案されたDPG-FBEアルゴリズムは、最先端のLTR手法と比較して、シミュレーションで40%以上の売上高増加を達成した。
タオバオでの本番環境展開において、DPG-FBEアルゴリズムはオフラインLTRベースラインと比較して、グロスマーチャンダイズバリュー（GMV）が30%以上増加した。
A/Bテストの結果、1週間の期間にわたり、DPG-FBEはDDPGを2.7%から4.3%の売上高増加で上回った。
このアルゴリズムは2016年のダブル11ショーピングフェスティバルでも正常に運用され、高同時接続数の本番環境での耐久性とスケーラビリティを実証した。
理論的分析により、検索セッション内の順次的順序付けステップ間に強い相関関係があるため、累積報酬の最大化が理論的に必要であることが確認された。
DPG-FBEにおける完全バックアップ推定は、報酬分散を効果的に低減し、複雑で報酬が希な環境における方策学習の安定性を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。