QUICK REVIEW

[論文レビュー] Domain-Independent Optimistic Initialization for Reinforcement Learning

Marlos C. Machado, Sriram Srinivasan|arXiv (Cornell University)|Oct 16, 2014

Reinforcement Learning in Robotics参考文献 2被引用数 18

ひとこと要約

本論文は、報酬スケールや特徴量ノルムの仮定に依存しないドメインに依存しない楽観的初期化手法を提案する。報酬を最初に観測された非ゼロ報酬に対して正規化し、γ−1だけシフトすることで、価値関数重みのゼロ初期化による有効な探索を可能にし、ドメイン固有のチューニングなしにAtari環境で優れたサンプル効率を達成する。

ABSTRACT

In Reinforcement Learning (RL), it is common to use optimistic initialization of value functions to encourage exploration. However, such an approach generally depends on the domain, viz., the scale of the rewards must be known, and the feature representation must have a constant norm. We present a simple approach that performs optimistic initialization with less dependence on the domain.

研究の動機と目的

従来の楽観的初期化が報酬スケールや特徴ベクトルノルムの事前知識を必要とするという限界を是正すること。
ドメイン固有の仮定や変更なしに楽観的探索を可能にする手法の開発。
多様な環境で性能を維持しながら、実装の簡素化と特徴工学の回避。
報酬がスパarsで遅延する環境（例：Atariゲーム）において、最小限の事前情報で有効な探索を可能にすること。

提案手法

最初に観測された非ゼロ報酬の絶対値ですべての報酬を正規化し、ユニットスケールの報酬信号を生成する。
正規化報酬を(γ−1)だけ下方シフトすることで、ゼロ初期化された価値関数がq(s,a) = r₁stの楽観的推定に対応することを保証する。
この変換された報酬信号を関数近似に使用し、重みθ = 0の初期化を可能にしつつも楽観的価値推定を達成する。
シフトにより、ゼロ初期化された関数の期待帰還が最初に観測された報酬と等価になるようにし、特徴量ノルムの知識が不要な探索を可能にする。
エピソードタスクにおける過早なエピソード終了を防ぐために、終了報酬r_end = γ^(T−k+1) − 1を適用する。
異なる報酬構造を持つゲームでの性能評価に、Arcade Learning EnvironmentとSarsa(λ)、基本的な視覚特徴を用いる。

実験結果

リサーチクエスチョン

RQ1関数近似における報酬スケールや特徴ベクトルノルムの事前知識なしに楽観的初期化を達成できるか？
RQ2報酬スケールや特徴量ノルムに依存しない楽観的初期化は、報酬がスパarsな環境（例：Atariゲーム）における学習効率にどのように影響するか？
RQ3変換された報酬を用いたゼロ重み初期化は、標準的なSarsa(λ)と比較して収束が速くなるか？
RQ4報酬の大きさやスパarsさが異なる環境でも、この手法はどのように性能を発揮するか？
RQ5長時間スケールの計画を要するゲームにおいて、この楽観的初期化を用いると、探索と活用のトレードオフはどのように変化するか？

主な発見

Freewayでは、学習率α=0.01およびα=0.50の両方において、楽観的初期化が学習を顕著に加速させ、特にα=0.01で最良の性能を示した。
この手法により、ランダムな探索が成功しにくい環境でも、正の報酬の発見が迅速に達成された。
Private Eyeでは、楽観的初期化が過剰な楽観性を引き起こし、特定の状態が非最適であることを学習を遅らせる結果となった。
ドメイン固有のチューニングや特徴工学なしに、報酬がスパarsで遅延する環境でも有効な探索が達成された。
終了報酬r_end = γ^(T−k+1) − 1の使用により、エピソードタスクにおける過早なエピソード終了が効果的に抑制された。
この手法は多様なAtariゲームで強く性能を発揮し、報酬スケールや特徴量スパarsさに対して頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。