[论文解读] When should agents explore?
本文提出了一种用于强化学习的模式切换探索框架,通过在回合内时间尺度上动态控制*何时*进行探索,实现策略利用与探索模式之间的切换,采用基于内在好奇心或固定步数的自适应触发机制。该方法在Atari游戏中实现了最先进性能,通过实现更丰富、更多样化的行为,超越了单一探索策略,且无需大量超参数调优。
Exploration remains a central challenge for reinforcement learning (RL). Virtually all existing methods share the feature of a monolithic behaviour policy that changes only gradually (at best). In contrast, the exploratory behaviours of animals and humans exhibit a rich diversity, namely including forms of switching between modes. This paper presents an initial study of mode-switching, non-monolithic exploration for RL. We investigate different modes to switch between, at what timescales it makes sense to switch, and what signals make for good switching triggers. We also propose practical algorithmic components that make the switching mechanism adaptive and robust, which enables flexibility without an accompanying hyper-parameter-tuning burden. Finally, we report a promising and detailed analysis on Atari, using two-mode exploration and switching at sub-episodic time-scales.
研究动机与目标
- 解决强化学习中关于*何时*探索这一尚未充分研究的问题,超越固定探索率或单一策略的限制。
- 研究不同时间粒度(尤其是回合内切换)对探索多样性与学习效率的影响。
- 设计一种鲁棒的自适应切换机制,减少对人工超参数调优的依赖,同时保持性能。
- 评估不同切换触发机制(如基于信息的触发与无信息触发、基于步数的触发与概率触发)对学习动态与最终性能的影响。
提出的方法
- 提出一种双模式强化学习框架,包含一个固定的利用策略(G)和两种不同的探索策略:XU(均匀随机)与XI(通过RND实现的内在好奇心)。
- 采用回合内切换机制,其中探索阶段持续多个步骤,但短于一个完整回合,模式切换由预设条件触发。
- 使用元控制器根据内在好奇心信号(有信息触发)或固定步长间隔(无信息触发)动态调整切换行为。
- 在部分实验中应用了离策略校正以确保稳定的Q-learning更新,但结果表明在当前设置下该步骤并非严格必要。
- 通过两个关键统计量表征探索行为:整体探索比例(pX)与中位探索周期长度(medX),构成用于分析的特征空间。
- 采用概率性切换机制,根据智能体的不确定性或内在奖励信号调整切换概率。
实验结果
研究问题
- RQ1与基于步长或回合级别的探索相比,回合内探索切换在Atari游戏上的学习效率与最终性能表现如何?
- RQ2无信息触发(固定步长间隔)与有信息触发(基于内在好奇心)哪种切换机制能带来更高的探索多样性与智能体性能?
- RQ3以利用模式开始回合与以探索模式开始回合是否会影响模式切换的速率与有效性,且这种影响在不同环境中是否有所差异?
- RQ4基于元控制器的自适应切换能否减少对人工超参数调优的依赖,同时保持或提升性能?
- RQ5不同探索模式(XU与XI)与各种切换策略在行为多样性与回报最大化方面如何相互作用?
主要发现
- 采用固定10步探索周期与无信息步长触发的回合内切换策略(XU-intra(10,blind,n*,G))在所有7个测试的Atari游戏中均表现出色,其中5款游戏的平均人类归一化得分超过100%。
- 有信息切换策略(XI-intra(10,informed,p*,G))在7款游戏中的6款上优于无信息策略,尤其在Montezuma’s Revenge与Star Gunner中表现突出,分别取得12,500与150,000的回报。
- 以利用模式开始回合导致切换频率较低(中位探索周期更长),而以探索模式开始则促进了更频繁的切换与更高的探索多样性。
- 元控制器的性能对超参数选择具有鲁棒性:即使采用固定切换间隔(如100步),该方法在不同环境中也表现出良好泛化能力,无需重新调优。
- 在XI模式实验中发现,离策略校正并非必要,因为未经校正的k步Q-learning表现同样优异或略优,表明内在奖励信号已足够稳定学习过程。
- 探索行为的特征空间(pX与medX)显示,不同切换策略覆盖了该空间的不同区域,表明回合内切换能够实现对探索行为的细粒度控制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。