QUICK REVIEW

[论文解读] A Survey of Generalisation in Deep Reinforcement Learning

Robert Kirk, Amy Zhang|arXiv (Cornell University)|Nov 18, 2021

Reinforcement Learning in Robotics参考文献 172被引用 64

一句话总结

本综述为理解深度强化学习中的泛化问题提供了统一的框架，对基准测试和方法进行了分类，以应对未见环境中的策略过拟合问题。它主张改进基准测试，重点关注离线强化学习和奖励函数变化，并建议未来研究应采用在线适应和强化学习特异性解决方案。

ABSTRACT

The study of generalisation in deep Reinforcement Learning (RL) aims to produce RL algorithms whose policies generalise well to novel unseen situations at deployment time, avoiding overfitting to their training environments. Tackling this is vital if we are to deploy reinforcement learning algorithms in real world scenarios, where the environment will be diverse, dynamic and unpredictable. This survey is an overview of this nascent field. We provide a unifying formalism and terminology for discussing different generalisation problems, building upon previous works. We go on to categorise existing benchmarks for generalisation, as well as current methods for tackling the generalisation problem. Finally, we provide a critical discussion of the current state of the field, including recommendations for future work. Among other conclusions, we argue that taking a purely procedural content generation approach to benchmark design is not conducive to progress in generalisation, we suggest fast online adaptation and tackling RL-specific problems as some areas for future work on methods for generalisation, and we recommend building benchmarks in underexplored problem settings such as offline RL generalisation and reward-function variation.

研究动机与目标

为深度强化学习中的泛化问题建立统一的形式化表述和术语体系。
对现有用于评估强化学习泛化的基准测试进行分类。
回顾当前旨在提升策略在未见环境中泛化能力的方法。
识别当前基准测试实践中的局限性，特别是程序化内容生成的局限性。
推荐未来研究方向，包括快速在线适应以及离线强化学习和奖励函数变化等尚未充分探索的设置。

提出的方法

提出统一的形式化表述，以标准化强化学习泛化问题的术语和问题框架。
根据其设计原则和泛化目标，对现有基准测试进行分类。
回顾最先进的泛化提升方法，例如领域随机化和元强化学习方法。
批判性评估基准测试实践，认为仅靠程序化内容生成不足以实现有意义的泛化评估。
建议在尚未充分探索的设置（如离线强化学习和奖励函数变化）中设计新基准测试，以更真实地反映现实世界部署场景。

实验结果

研究问题

RQ1在真实世界部署中，实现深度强化学习稳健泛化的关键挑战是什么？
RQ2当前用于强化学习泛化的基准测试在设计和有效性方面有何不同？
RQ3程序化内容生成在强化学习泛化基准测试中存在哪些局限性？
RQ4哪些方法论路径在提升强化学习泛化能力方面最具前景？
RQ5未来基准测试和研究应优先关注哪些尚未充分探索的问题设置？

主要发现

仅靠程序化内容生成不足以实现对强化学习泛化有意义的评估，因为它可能无法反映现实世界中的分布偏移。
快速在线适应是提升动态环境中泛化能力的有前景方向。
当前基准测试往往无法捕捉现实世界中的关键场景，例如离线强化学习和奖励函数变化。
亟需更多样化且更真实的基准测试，以反映现实世界部署的复杂性。
该领域将从针对强化学习特异性挑战（如分布偏移和奖励错位）的方法论进步中受益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。