[论文解读] Generalization of Reinforcement Learners with Working and Episodic Memory
本文提出一个由13个内存密集型强化学习任务组成的基准测试套件,用于评估工作记忆与情景记忆系统之间的泛化能力。提出记忆回溯智能体(MRA),该智能体整合了工作记忆、情景记忆以及对比表示学习损失,结果表明两种记忆类型协同作用可显著提升在保留任务上的泛化性能,尤其在分布偏移情况下表现更优。
Memory is an important aspect of intelligence and plays a role in many deep reinforcement learning models. However, little progress has been made in understanding when specific memory systems help more than others and how well they generalize. The field also has yet to see a prevalent consistent and rigorous approach for evaluating agent performance on holdout data. In this paper, we aim to develop a comprehensive methodology to test different kinds of memory in an agent and assess how well the agent can apply what it learns in training to a holdout set that differs from the training set along dimensions that we suggest are relevant for evaluating memory-specific generalization. To that end, we first construct a diverse set of memory tasks that allow us to evaluate test-time generalization across multiple dimensions. Second, we develop and perform multiple ablations on an agent architecture that combines multiple memory systems, observe its baseline models, and investigate its performance against the task suite.
研究动机与目标
- 开发一种严谨且一致的方法论,用于评估强化学习智能体中的基于记忆的泛化能力。
- 识别工作记忆与情景记忆系统在何种情况下以及如何促进强化学习智能体在分布偏移下的泛化能力。
- 在训练数据在规模、物体身份和环境结构方面存在差异的保留任务上,对智能体性能进行基准测试。
- 研究表示学习与信用分配在实现长期记忆泛化中的作用。
- 提供一种标准化的评估框架,用于记忆增强型强化学习智能体,采用沿认知相关维度划分的训练-保留分割。
提出的方法
- 设计一个包含13项任务的多样化套件——源自PsychLab和DMLab,并使用Unity 3D构建——其训练-保留分割在物体身份、环境规模和任务结构方面存在差异,用于测试记忆泛化能力。
- 开发记忆回溯智能体(MRA),一种混合架构,结合基于Transformer的控制器(工作记忆)、带有k近邻检索的外部情景记忆模块,以及对比表示损失。
- 应用多任务对比损失(L_REC),以促进跨任务的共享且鲁棒的表示,其图像、动作和奖励重建的加权分量被分别优化。
- 通过时间反向传播与展开训练,实现长期信用分配和在长序列中的记忆访问。
- 在所有模型中采用固定的超参数配置,仅在PsychLab任务上进行系统性超参数调优,其他任务仅进行最小程度调优,以确保公平比较。
- 在训练任务和保留任务上评估性能,通过分布偏移下的性能下降程度来衡量泛化能力。
实验结果
研究问题
- RQ1工作记忆与情景记忆系统在强化学习智能体中,分别及共同如何促进泛化?
- RQ2在特定物体与环境上训练的智能体,在面对物体身份或环境规模发生变化的保留任务时,其泛化能力能达到何种程度?
- RQ3对比表示学习是否能提升记忆增强型强化学习智能体的泛化能力?它是否与情景记忆产生协同效应?
- RQ4与训练数据相比,记忆增强型智能体在分布偏移的保留数据上性能下降程度如何?
- RQ5统一的智能体架构能否有效整合工作记忆、情景记忆与表示学习,从而在多样化的记忆任务上超越基线模型?
主要发现
- 记忆回溯智能体(MRA)在全部任务套件中均优于基线模型,证明了工作记忆与情景记忆组件整合的有效性。
- 情景记忆显著提升了数据效率与泛化能力,尤其在需要长时程推理或导航至先前未见过目标的任务中表现突出。
- 采用共享图像、动作与奖励重建损失的对比表示学习(L_REC)提升了泛化能力,尤其在视觉或结构差异较大的任务中效果更明显。
- 情景记忆与对比表示学习的结合带来了协同增益,其性能下降程度低于任一组件单独作用时。
- 尽管性能有所提升,但无一模型能完全泛化至所有保留任务,性能下降在更复杂或结构发生显著变化的任务中更为明显。
- MRA模型在多种环境中表现出稳健性能,包括程序化迷宫与传递推理任务,而基线模型在这些任务中无法实现泛化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。