Skip to main content
QUICK REVIEW

[论文解读] Dopamine: A Research Framework for Deep Reinforcement Learning

Pablo Samuel Castro, Subhodeep Moitra|arXiv (Cornell University)|Dec 14, 2018
Reinforcement Learning in Robotics参考文献 6被引用 172
一句话总结

多巴胺是一个小型、开源的 TensorFlow 框架,专注于 Arcade Learning Environment 中稳定、可重复的基于价值的深度 RL 研究,强调简洁性以支持算法研究和教学用途。它提供四个代理、基线基线,以及可重复的实验工具。

ABSTRACT

Deep reinforcement learning (deep RL) research has grown significantly in recent years. A number of software offerings now exist that provide stable, comprehensive implementations for benchmarking. At the same time, recent deep RL research has become more diverse in its goals. In this paper we introduce Dopamine, a new research framework for deep RL that aims to support some of that diversity. Dopamine is open-source, TensorFlow-based, and provides compact and reliable implementations of some state-of-the-art deep RL agents. We complement this offering with a taxonomy of the different research objectives in deep RL research. While by no means exhaustive, our analysis highlights the heterogeneity of research in the field, and the value of frameworks such as ours.

研究动机与目标

  • 描述深度强化学习中的多样化研究目标并识别每个目标所需的软件需求。
  • 提出一个紧凑、独立的框架,旨在支持深度 RL 的算法研究与教学用途。
  • 提供可重复的基线和工具,以在 ALE 中对代理进行一致比较。
  • 提供交互式笔记本、预训练模型和训练数据,以促进复现实验和学习。

提出的方法

  • 将 Dopamine 介绍为一个 12 个文件、基于 TensorFlow 的框架,关注紧凑性与可靠性。
  • 实现并提供四个成熟的基于价值的代理(DQN、C51、Rainbow-like、IQN),并具备与 ALE 的兼容性。
  • 使用 gin-config 进行集中化的实验配置,以确保可重复性和参数切换的便利。
  • 提供广泛的测试(覆盖率>98%)和现成的基线,便于一致的基准测试。
  • 提供 Colab 笔记本、预训练基线和数据,以促进复现实验和可视化。
  • 通过对研究目标的分类法来讨论设计决策(架构、综合研究、可视化、算法研究、教学)。

实验结果

研究问题

  • RQ1在深度 RL 中,不同研究目标如何映射到软件需求和框架设计?
  • RQ2一个紧凑、独立的框架是否能够在不牺牲可重复性的情况下支持有意义的算法研究和教学用途?
  • RQ3环境和评估选择(如 ALE 设置、粘性动作)对报告的 RL 性能有何影响?
  • RQ4如何通过一组通用基线实现对基于 ALE 的价值代理的公平比较?
  • RQ5哪些基础设施和工具(笔记本、检查点、日志)最有利于支持可重复的深度 RL 研究?

主要发现

  • Dopamine 表明,一个紧凑的(12 个文件,约 2000 行 Python)框架可以实现多种先进的基于价值的代理用于 ALE。
  • 以 gin-config 驱动的设置使实验可重复,具备集中、易于调整的超参数和用于公平基准测试的完整基线。
  • 默认设置(粘性动作、终止标准和标准化超参数)在学习动力学和代理间报告的性能方面有实质性影响,凸显了先前工作中识别的可重复性问题。
  • 该框架提供全面的测试(覆盖率 >98%)和现成可用的基线(包括预训练的检查点和 TensorBoard 日志),以促进复现和比较。
  • Dopamine 强调算法研究和教学用途,展示了简单性和可靠性可以与有用的研究工具和教育资源共存。
  • 在 ALE 中的基线比较表明,默认设置会根据配置改变代理的主导地位(例如 C51 与 Rainbow、IQN),框架清晰地展示了这些效应。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。