QUICK REVIEW

[论文解读] Learning Policies with External Memory

Leonid Peshkin, Nicolas Meuleau|ArXiv.org|Mar 2, 2001

Reinforcement Learning in Robotics参考文献 16被引用 92

一句话总结

本文提出一种基于外部记忆的自催化强化学习方法，用于在部分可观察马尔可夫决策过程（POMDP）中使智能体学习最优策略。通过在观测中加入记忆位，并使用vaps和SARSA(λ)等算法，该方法实现了内存高效的信用分配，其中vaps在复杂非马尔可夫任务（如多位置装卸问题）中表现优于SARSA(λ)。

ABSTRACT

In order for an agent to perform well in partially observable domains, it is usually necessary for actions to depend on the history of observations. In this paper, we explore a {\it stigmergic} approach, in which the agent's actions include the ability to set and clear bits in an external memory, and the external memory is included as part of the input to the agent. In this case, we need to learn a reactive policy in a highly non-Markovian domain. We explore two algorithms: SARSA(λ), which has had empirical success in partially observable domains, and VAPS, a new algorithm due to Baird and Moore, with convergence guarantees in partially observable domains. We compare the performance of these two algorithms on benchmark problems.

研究动机与目标

解决在标准马尔可夫假设不成立的部分可观察环境中学习有效策略的挑战。
探究外部记忆是否能使反应式智能体在非马尔可夫领域中模拟最优行为。
比较vaps与SARSA(λ)在基准POMDP问题上使用外部记忆学习策略时的性能表现。
评估信用分配机制在高度非马尔可夫设置下对学习稳定性与收敛性的影响。

提出的方法

通过一组外部记忆位扩展智能体的观测空间，以编码历史信息。
采用一种反应式策略，将观测状态与记忆状态映射为动作，包括记忆设置与清除动作。
使用带有资格迹和Boltzmann探索的SARSA(λ)进行策略学习，采用学习率与温度衰减策略。
应用vaps（价值调整策略搜索）——一种在POMDP中具有收敛保证的算法，采用真实Boltzmann探索并基于策略误差进行信用分配。
以表格形式表示Q函数，为每个观测-动作对分配权重。
采用改进的探索策略，结合衰减的温度与固定的学习率调度，以稳定学习过程。

实验结果

研究问题

RQ1外部记忆是否能使反应式智能体在非马尔可夫领域中学习到最优策略？
RQ2在非马尔可夫复杂度逐渐增加的基准POMDP问题上，vaps与SARSA(λ)的学习性能如何比较？
RQ3vaps中改进的信用分配是否能带来比SARSA(λ)更稳定的学习过程与更快的收敛速度，尤其是在高度非马尔可夫环境中？
RQ4在非马尔可夫任务中，哪些超参数设置（如β、λ、学习率、温度衰减）对每种算法最为有效？
RQ5在多位置装卸问题中，vaps是否能持续收敛到近似最优策略，而SARSA(λ)则失败，尤其是在此类任务中？

主要发现

在一装卸位置的装卸问题中，vaps与SARSA(λ)均在少于100次训练中收敛至最优策略，试验长度为9步。
在双装卸位置问题中，vaps始终收敛至近似最优策略，而SARSA(λ)未能稳定，常在接近最优性能后发散。
采用真实Boltzmann探索的改进vaps版本在学习稳定性与收敛速度方面优于Baird和Moore报告的原始vaps形式。
SARSA(λ)在λ=1且ε=0时表现最佳，但因探索期间对所有状态-动作对施加均匀惩罚而仍不稳定。
vaps要求β=1才能收敛，表明在高度非马尔可夫领域中，Bellman误差无法作为有效的学习信号。
基础学习率α₀=0.5，结合温度从c_max=1.0衰减至c_min=0.2，可在两种算法及问题类型中实现稳健性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。