QUICK REVIEW

[論文レビュー] Deep Exploration via Randomized Value Functions

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Mar 22, 2017

Advanced Bandit Algorithms Research参考文献 84被引用数 68

ひとこと要約

本論文は、乱択化された値関数を統合して深層探索を推進する深層強化学習アプローチを提案し、パラメータに対する事前分布とメモリバッファを用いたマルコフ計画風の更新を活用する。

ABSTRACT

We study the use of randomized value functions to guide deep exploration in reinforcement learning. This offers an elegant means for synthesizing statistically and computationally efficient exploration with common practical approaches to value function learning. We present several reinforcement learning algorithms that leverage randomized value functions and demonstrate their efficacy through computational studies. We also prove a regret bound that establishes statistical efficiency with a tabular representation.

研究の動機と目的

確率的・乱択化された値関数表現を通じて、深層強化学習における効率的な探索を動機づける。
TD損失、パラメータの事前分布、リプレイバッファを組み合わせて探索を導く学習フレームワークを定義する。
計画のための更新手順を導入し、摂動された値関数推定量を生成する。

提案手法

TD誤差に基づく損失を用いて、乱択化された値関数を用いて推定値を更新する。
トレーニング用の過去の観測を格納するメモリバッファ (buffer) を維持する。
学習を正規化するためにパラメータの事前分布 (prior) を組み込む。
更新時の先読みを規定する計画範囲 H を定義する。
更新系列の一部として、摂動/更新された値関数推定量 tilde{θ} を計算する。

実験結果

リサーチクエスチョン

RQ1乱択化された値関数は、強化学習における深い探索の効率を改善できるか？
RQ2パラメータの事前分布とリプレイバッファは、深い探索を安定化させるためにどのように相互作用すべきか？
RQ3計画 horizon は、乱択化された値関数アプローチの有効性にどのような役割を果たすか？

主な発見

本手法は、事前分布、バッファデータ、計画を含む構造化された更新を導入し、摂動された値関数推定量を生成する。
本手法は、TD誤差損失、正則化関数、メモリバッファを用いた更新を枠組みとして整理し、探索と価値推定のバランスを図る。
本資料は、事前平均とバッファデータから新しい値関数推定へ至るアルゴリズム的進行を概説する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。