QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning in Large Discrete Action Spaces

Gabriel Dulac-Arnold, Evans, Richard|arXiv (Cornell University)|Dec 24, 2015

Anomaly Detection Techniques and Applications被引用数 265

ひとこと要約

本稿では、行動を連続空間に埋め込み、近似最近傍探索を用いることで、線形未満の推論複雑度を実現する深層強化学習手法を提案する。この手法により、最大100万個の行動を含むタスクにおいて、効率的な学習と推論が可能となり、強い性能を示すにはわずかに近い行動のサブセットで十分であることが実証された。同時に、一般化性とスケーラビリティを維持している。

ABSTRACT

Being able to reason in an environment with a large number of discrete actions is essential to bringing reinforcement learning to a larger class of problems. Recommender systems, industrial plants and language models are only some of the many real-world tasks involving large numbers of discrete actions for which current methods are difficult or even often impossible to apply. An ability to generalize over the set of actions as well as sub-linear complexity relative to the size of the set are both necessary to handle such tasks. Current approaches are not able to provide both of these, which motivates the work in this paper. Our proposed approach leverages prior information about the actions to embed them in a continuous space upon which it can generalize. Additionally, approximate nearest-neighbor methods allow for logarithmic-time lookup complexity relative to the number of actions, which is necessary for time-wise tractable training. This combined approach allows reinforcement learning methods to be applied to large-scale learning problems previously intractable with current methods. We demonstrate our algorithm's abilities on a series of tasks having up to one million actions.

研究の動機と目的

推薦システムや産業制御など、非常に大きな離散的行動集合を有する環境における深層強化学習の非効率性に対処すること。
行動集合のサイズに比例して線形に増加する複雑度を伴わずに、行動間の一般化を可能にすること。
埋め込み空間における効率的な最近傍検索により、大規模な行動空間における推論時間を短縮すること。
学習において、上位k個の最近傍行動の小さなサブセットから学習することが、強力な性能を発揮するのに十分であることを実証すること。
行動集合が数百万を超える現実世界のシステムにおいてもスケーラブルな強化学習を実現すること。

提案手法

事前知識を用いて行動を連続ベクトル空間に埋め込むことで、類似する行動間での一般化が可能になる。
方策ネットワークは埋め込み空間内の連続的行動ベクトルを出力し、その後、近似最近傍（ANN）探索により最も近い離散的行動にマッピングされる。
FLANNなどのANNライブラリを用いることで、行動数に比して対数時間オーダーの検索複雑度が達成される。
エージェントは埋め込み空間内のk個の最近傍行動から最良の行動を選択し、直接選択するか、価値ベースの最適化を経て選択する。
本手法は、DDPGなどの方策勾配法を用いたアクター・クリティックフレームワークで訓練され、大規模な離散的行動空間を有する環境を対象とする。
行動表現は事前学習可能であり、あるいは学習中に共同最適化することで、埋め込みの品質を向上させることができる。

実験結果

リサーチクエスチョン

RQ1最大100万個の離散的行動を有する環境において、深層強化学習が実行可能になるか。
RQ2学習した埋め込み空間内で、上位k個の最近傍行動のみを用いることで、計算コストを削減しながらも性能が維持されるか。
RQ3近似最近傍探索が、大規模な行動空間における学習性能と学習速度に与える影響は何か。
RQ4行動埋め込みにより、行動集合の全列挙を必要とせずに、行動間の一般化が可能になるか。
RQ5ガイド付き探索は、大規模な行動空間環境において、学習効率をどの程度向上させ得るか。

主な発見

本手法は、最大100万個の離散的行動を有するタスクにおいて安定した学習と優れた性能を達成し、先行手法をはるかに超えるスケーラビリティを示した。
13,138個の行動を有するタスクにおいて、1%の行動（k=131）のみを用いた場合、全行動ベースラインの37%の性能を達成し、学習時間は15倍速くなった。
低再現率のFLANN設定では性能が著しく低下したが、中程度および高速設定では性能にほとんど影響がなかった。
13,138個の行動を有するタスクにおいて、k=5%（656個）の近似最近傍探索を用いた場合、1秒間に12ステップの処理が可能だったのに対し、全行動学習ではわずか1.5ステップ/秒にとどまった。
小さなタスクでは、20次元の行動表現が200次元よりも収束安定性に優れていたことから、埋め込み次元数のトレードオフが存在することが示唆された。
大規模なタスクにおいて、一様なランダム探索ではなく、制限されたε（確率的行動選択範囲）を用いたガイド付き探索を採用したことで、性能が50%向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。