QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning with Attention for Slate Markov Decision Processes with High-Dimensional States and Actions

Peter Sunehag, Evans, Richard|arXiv (Cornell University)|Dec 3, 2015

Reinforcement Learning in Robotics参考文献 13被引用数 32

ひとこと要約

本稿は、高次元の状態および行動空間を有するスレートマークフォード決定過程（slate-MDPs）に対して、アテンション機構とリスク志向の学習を用いた深層強化学習フレームワークを提案する。行動の組み合わせ（スレート）を最適化する。順序付きかつ組み合わせ的価値を統合的にモデル化することで、最大2000次元の行動空間を持つ推薦システムにおいて、ベースラインを上回る優れた性能を示す。

ABSTRACT

Many real-world problems come with action spaces represented as feature vectors. Although high-dimensional control is a largely unsolved problem, there has recently been progress for modest dimensionalities. Here we report on a successful attempt at addressing problems of dimensionality as high as $2000$, of a particular form. Motivated by important applications such as recommendation systems that do not fit the standard reinforcement learning frameworks, we introduce Slate Markov Decision Processes (slate-MDPs). A Slate-MDP is an MDP with a combinatorial action space consisting of slates (tuples) of primitive actions of which one is executed in an underlying MDP. The agent does not control the choice of this executed action and the action might not even be from the slate, e.g., for recommendation systems for which all recommendations can be ignored. We use deep Q-learning based on feature representations of both the state and action to learn the value of whole slates. Unlike existing methods, we optimize for both the combinatorial and sequential aspects of our tasks. The new agent's superiority over agents that either ignore the combinatorial or sequential long-term value aspect is demonstrated on a range of environments with dynamics from a real-world recommendation system. Further, we use deep deterministic policy gradients to learn a policy that for each position of the slate, guides attention towards the part of the action space in which the value is the highest and we only evaluate actions in this area. The attention is used within a sequentially greedy procedure leveraging submodularity. Finally, we show how introducing risk-seeking can dramatically improve the agents performance and ability to discover more far reaching strategies.

研究の動機と目的

推薦システムなどの実世界の応用で一般的な高次元の組み合わせ的行動空間における強化学習の課題に対処する。
スレートから1つの行動のみが実行されるという条件のもとで、エージェントが全スレートを最適化する必要がある、スレートマークフォード決定過程（slate-MDPs）を形式化する。
行動を独立に扱うか、全スレートを全探索的に評価するという標準的なRLエージェントの限界を克服する。
全列挙を伴わずに高価値の行動領域に注目できるように、アテンションと深層Q学習を活用したスケーラブルな手法を開発する。
報酬変換を用いたリスク志向の学習により、長期的かつ高報酬の戦略の発見を可能にする。

提案手法

エージェントがスレート（順序付きタプル）の行動を選択するが、環境はそのうちの1つの行動のみを実行するという問題を形式化するため、スレート-MDPsを提案する。
状態および行動の特徴表現を用いて、アテンションを備えた深層Qネットワークを用いて、全スレートの価値を学習する。
部分集合の価値評価を効率的に行うために、サブモジュラリティを活用し、注目を最も有望な行動部分集合に集中させる逐次的グリーディ手続きを実装する。
行動空間の高価値領域に注目できるように、アテンションをガイドとするパラメータ化された方策ネットワークを、深層決定的方策勾配法を用いて訓練する。
プロスペクト理論にインspiredし、報酬を $ r^\alpha $（$ \alpha > 1 $）に変換することで、リスク志向の行動を導入し、高分散・高リターン経路の探索を促進する。
計算コストを抑えつつ性能を維持するために、最近傍探索と制限付き候補集合における価値関数評価を組み合わせる。

実験結果

リサーチクエスチョン

RQ1行動空間が最大2000次元に達するスレート-MDPsにおいて、1つの行動のみが実行される条件下で、深層強化学習が効果的にスレートを最適化できるか？
RQ2組み合わせ的スレート設定において、アテンションベースの価値関数近似は、独立した行動価値推定を上回る性能を発揮するか？
RQ3アテンションと決定的方策勾配法でガイドされた方策ネットワークは、全列挙を伴わず、高価値の行動部分集合に効果的に集中できるか？
RQ4報酬変換 $ r^\alpha $ を用いたリスク志向の学習は、標準的な学習と比較して、優れた長期戦略を発見可能か？
RQ5さまざまなスレートサイズと行動空間次元において、完全スレートエージェントの性能は、単純なトップ-Kベースラインと比較してどうなるか？

主な発見

全スレートエージェントは、すべてのスレートサイズと行動空間次元において、単純なトップ-Kベースラインを顕著に上回る。特にスレートサイズが大きくなると顕著である。
スレートサイズが1の場合、全スレートエージェントとトップ-Kエージェントは同一となる。これは、すべての行動が評価されるため、この状況ではベースラインと同等であることを確認する。
候補行動の10％のみを評価するエージェントは、すべての行動を評価するエージェントとほぼ同等の性能を示しており、アテンションベースのプルーニングの有効性を示している。
最近傍エージェントは、わずかに性能が低く、ばらつきが大きいが、高いばらつきのおかげで優れた探索性能を示し、特定のシナリオでは他を上回る。
報酬変換 $ \alpha > 1 $ を用いたリスク志向の学習により、最大環境（N=13138）において顕著な性能向上が達成され、最適な短期的最適方策を上回った。
N=13138環境において、リスク志向の学習を用いたエージェントは、標準的な学習に比べてはるかに高い長期的報酬を達成しており、非短期的探索の価値を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。