QUICK REVIEW

[論文レビュー] Learning Policies with External Memory

Leonid Peshkin, Nicolas Meuleau|ArXiv.org|Mar 2, 2001

Reinforcement Learning in Robotics参考文献 16被引用数 92

ひとこと要約

本稿では、外部記憶を用いたstigmergic強化学習手法を提案し、部分的に観測可能なマルコフ決定過程（POMDP）においてエージェントが最適方策を学習可能となるようにする。観測値に記憶ビットを追加し、vaps や SARSA(λ) といったアルゴリズムを用いることで、記憶効率の良い信用配分が可能となり、特に多地点ロード・アンロード問題のような非マルコフ的タスクにおいて vaps が SARSA(λ) を上回る性能を示す。

ABSTRACT

In order for an agent to perform well in partially observable domains, it is usually necessary for actions to depend on the history of observations. In this paper, we explore a {\it stigmergic} approach, in which the agent's actions include the ability to set and clear bits in an external memory, and the external memory is included as part of the input to the agent. In this case, we need to learn a reactive policy in a highly non-Markovian domain. We explore two algorithms: SARSA(λ), which has had empirical success in partially observable domains, and VAPS, a new algorithm due to Baird and Moore, with convergence guarantees in partially observable domains. We compare the performance of these two algorithms on benchmark problems.

研究の動機と目的

標準的なマルコフ仮定が成立しない部分観測環境における有効な方策の学習という課題に対処すること。
外部記憶が反応的エージェントが非マルコフ的領域で最適行動を模倣可能かどうかを調査すること。
ベンチマークPOMDP問題における外部記憶を用いた方策学習において、vaps と SARSA(λ) の性能を比較すること。
極めて非マルコフ的な設定における学習安定性および収束性に与える信用配分メカニズムの影響を評価すること。

提案手法

歴史的情報を符号化するために、エージェントの観測空間に外部記憶ビットの集合を追加する。
観測値と記憶状態を行動にマッピングする反応的方策を用い、記憶の設定およびクリアを行う行動を含む。
学習率および温度の減少戦略を用いた、エリギビリティトレースとボルツマン探索を用いたSARSA(λ)による方策学習を実装する。
POMDPに収束保証がある vaps（価値調整型方策探索）を適用し、真のボルツマン探索と方策誤差に基づく信用配分を用いる。
各観測-行動ペアに対して重みをもつテーブル形式のQ関数を表現する。
学習を安定化させるために、温度を減少させ、学習率を固定スケジュールとする修正された探索戦略を適用する。

実験結果

リサーチクエスチョン

RQ1外部記憶は、非マルコフ的領域において反応的エージェントが最適方策を学習可能にするか？
RQ2非マルコフ的複雑度が増すベンチマークPOMDP問題において、vaps と SARSA(λ) の学習性能はどのように比較されるか？
RQ3vapsにおける改善された信用配分は、極めて非マルコフ的な環境において、SARSA(λ) よりも学習安定性と収束速度に優れるか？
RQ4非マルコフ的タスクにおいて、各アルゴリズムに最も効果的なハイパーパrameter設定（例：β, λ, 学習率, 温度減少）は何か？
RQ5特に多地点ロード・アンロード問題において、SARSA(λ) が失敗する状況でも、vaps は一貫して近似的最適方策に収束するか？

主な発見

1つのロード・ロケーション問題では、vaps と SARSA(λ) の両方が100回未満の実行で最適方策に収束し、試行長が9ステップに達した。
2つのロード・ロケーション問題では、vaps は一貫して近似的最適方策に収束したが、SARSA(λ) は最適性能に達した後、しばしば発散し、安定しなかった。
真のボルツマン探索を用いた修正版 vaps は、Baird よりも報告されたオリジナルの vaps の形式よりも、学習安定性および収束速度の面で優れていた。
λ=1 かつ ε=0 のSARSA(λ) は他のλ値よりも優れた性能を示したが、探索中にすべての状態-行動ペアが均等に罰せられるため、依然として不安定だった。
vaps は収束のためには β=1 が必要であり、これは極めて非マルコフ的な領域ではベルヌーイ誤差が学習信号として効果を示さないことを示唆している。
基本学習率 α₀=0.5 に加え、温度を c_max=1.0 から c_min=0.2 に減少させる戦略が、両方のアルゴリズムおよび問題タイプにおいて強固な性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。