[论文解读] Efficient Deep Reinforcement Learning Requires Regulating Overfitting
作者表明,在高更新/数据比的情况下,高验证TD误差是数据高效深度强化学习的主要瓶颈,并引入AVTD,一种在线模型选择方法,通过在正则化器之间进行选择以最小化验证TD误差,从而在Gym和DMC任务中提升性能。
Deep reinforcement learning algorithms that learn policies by trial-and-error must learn from limited amounts of data collected by actively interacting with the environment. While many prior works have shown that proper regularization techniques are crucial for enabling data-efficient RL, a general understanding of the bottlenecks in data-efficient RL has remained unclear. Consequently, it has been difficult to devise a universal technique that works well across all domains. In this paper, we attempt to understand the primary bottleneck in sample-efficient deep RL by examining several potential hypotheses such as non-stationarity, excessive action distribution shift, and overfitting. We perform thorough empirical analysis on state-based DeepMind control suite (DMC) tasks in a controlled and systematic way to show that high temporal-difference (TD) error on the validation set of transitions is the main culprit that severely affects the performance of deep RL algorithms, and prior methods that lead to good performance do in fact, control the validation TD error to be low. This observation gives us a robust principle for making deep RL efficient: we can hill-climb on the validation TD error by utilizing any form of regularization techniques from supervised learning. We show that a simple online model selection method that targets the validation TD error is effective across state-based DMC and Gym tasks.
研究动机与目标
- 确定在高更新/数据比下限制样本效率的主要瓶颈。
- 评估非平稳性、分布偏移和过拟合等解释导致性能不佳的假设。
- 提出并验证通过验证TD误差来规制过拟合的有原则性的方法。
- 开发一个在线模型选择方案(AVTD),实现对正则化选择的自动化,以最小化验证TD误差。
提出的方法
- 对基于状态的DeepMind控制套件任务和Gym任务进行实证分析,以诊断在高更新/数据比下失败的来源。
- 在各种假设下衡量并比较训练与验证TD误差、Q-gap和Q值估计偏差。
- 评估一系列正则化方法(Dropout、权重衰减、谱归一化、周期性重置、DroQ变体)对验证TD误差的影响。
- 提出AVTD:在共享回放缓冲区上训练多种正则化器的代理,并选择验证TD误差最低的代理来执行。
- 在Gym和DMC任务上展示一组正则化器(LayerNorm、LayerNorm+WD、WD、DroQ变体)的AVTD。
实验结果
研究问题
- RQ1在高更新/数据比下,限制数据高效深度RL的主要瓶颈是什么?
- RQ2在高UTD下,数据采集质量、分布偏移、非平稳性或过拟合是否能解释性能不佳?
- RQ3通过正则化控制验证TD误差是否能提高跨多任务的样本效率?
- RQ4基于验证TD误差的在线模型选择方法(AVTD)是否能够可靠地在线挑选出有效的正则化器?
主要发现
- 在训练初期的高验证TD误差与在高更新/数据比下的最终性能较差之间存在相关性。
- 验证TD误差是诊断数据高效RL失败的一个在DMC和Gym任务中都具有鲁棒性的指标。
- 许多正则化方法通过降低验证TD误差来提升性能,而并非普遍解决问题。
- AVTD在基于验证TD误差选择多种正则化器时,常与最佳单一正则化器相当或超越其性能,并提高了跨任务的鲁棒性。
- 将验证TD误差作为选择信号比基于训练TD误差或Q-gap的替代方案在在线模型选择中表现更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。