QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning of Marked Temporal Point Processes

Utkarsh Upadhyay, Abir De|arXiv (Cornell University)|May 23, 2018

Innovation Diffusion and Forecasting被引用数 34

ひとこと要約

本稿では、エージェントの行動と環境からのフィードバックの両方が非同期的かつ連続時間的に発生する、マーク付き時系列点過程（MTPP）のための深層強化学習フレームワークを提案する。深層再帰ニューラルネットワーク（RNN）を用いて方策の強度およびマーク分布をパラメータ化することで、任意の報酬関数を用いたエンドツーエンド学習が可能となり、実世界のDuolingoおよびTwitterデータを用いた個人向け学習支援およびウイルバルーピングマーケティングの応用において、特化型のベースラインを上回る性能を発揮する。

ABSTRACT

In a wide variety of applications, humans interact with a complex environment by means of asynchronous stochastic discrete events in continuous time. Can we design online interventions that will help humans achieve certain goals in such asynchronous setting? In this paper, we address the above problem from the perspective of deep reinforcement learning of marked temporal point processes, where both the actions taken by an agent and the feedback it receives from the environment are asynchronous stochastic discrete events characterized using marked temporal point processes. In doing so, we define the agent's policy using the intensity and mark distribution of the corresponding process and then derive a flexible policy gradient method, which embeds the agent's actions and the feedback it receives into real-valued vectors using deep recurrent neural networks. Our method does not make any assumptions on the functional form of the intensity and mark distribution of the feedback and it allows for arbitrarily complex reward functions. We apply our methodology to two different applications in personalized teaching and viral marketing and, using data gathered from Duolingo and Twitter, we show that it may be able to find interventions to help learners and marketers achieve their goals more effectively than alternatives.

研究の動機と目的

両方の行動とフィードバックが確率的イベントである非同期的かつ連続時間環境におけるオンライン干渉の設計という課題に対処すること。
強度およびマーク分布の関数形が固定であると仮定する従来の確率的最適制御手法の制限を克服すること。
解析的解が容易に得られないような、任意の複雑な報酬関数を強化学習で用いることの可能化。
環境ダイナミクスに関する仮定を一切行わず、マーク付き時系列点過程に直接作用する方策勾配法の開発。
本手法の有効性を、個人向け学習支援やウイルバルーピングマーケティングなどの実世界応用において実証すること。

提案手法

エージェントの方策は、条件付き強度関数とマーク分布で定義され、両方とも深層再帰ニューラルネットワーク（RNN）によってパラメータ化される。
行動は方策の強度関数からサンプリングされ、マークはマーク分布からサンプリングされ、予定された行動時刻よりも前にフィードバックイベントが発生した場合には再サンプリングが行われる。
MTPPの尤度関数と報酬関数を逆伝播可能にする、新規な方策勾配法が導出され、エンドツーエンド学習が可能になる。
フィードバックの強度関数やマーク分布の特定の関数形を仮定しないため、最先端の深層MTPPモデルを活用できる。
勾配降下法に二次正則化子を適用して方策パラメータを最適化し、学習と評価は分割されたフィードバックシーケンスを用いて実施される。
本フレームワークは、平均順位の最小化やソーシャルメディアフィードにおける上位表示時間の最大化といった複雑な目的を含む、任意の報酬関数をサポートする。

実験結果

リサーチクエスチョン

RQ1深層強化学習フレームワークは、連続時間的かつ非同期的イベント環境における干渉のモデル化と最適化を効果的に実行できるか？
RQ2平均順位の最小化やフィード上位表示時間の最大化といった特定目的を想定した特化型ベースラインと比較して、本手法はどの程度の性能を示すか？
RQ3既知または解析的に解ける形を仮定しない状況でも、報酬関数やフィードバックダイナミクスの多様な変動にどの程度一般化可能か？
RQ4環境ダイナミクスが未知または複雑な場合でも、本手法は有効な方策を学習できるか？
RQ5実世界の設定において、ヒューリスティック法や最先端のアルゴリズムと比較して、本手法の性能と分散はどの程度か？

主な発見

本手法は、フィードのソートアルゴリズムが未知であるにもかかわらず、逆時系列順フィードにおける平均順位の最小化および上位表示時間の最大化において、RedQueenおよびKarimiらの手法を上回る性能を発揮する。
報酬関数が解析的に解けるシンプルな設定では、確率的最適制御ベースラインと同等の性能を達成するが、真のダイナミクスにアクセスできないにもかかわらず、その性能を維持する。
報酬関数が非トレードマーク（非解析的）な複雑な設定では、従来の手法が失敗する状況でも、本手法は有効な干渉を学習することができる。
特に高優先度ユーザーが多数存在する競合環境では、RedQueenよりも性能のばらつきが小さいことが示された。
トライアル例では、高優先度ユーザーが投稿した際に投稿を避ける戦略的行動を学習しており、競合ダイナミクスに対する戦略的認識を示している。
TensorFlowを用いたオープンソース実装が公開され、MTPPに基づく強化学習分野の広範な研究を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。