[论文解读] Learning Purposeful Behaviour in the Absence of Rewards
本文提出了一种无需奖励信号的算法,通过识别随机探索过程中观察到的‘特征本征目的’(eigenpurposes)——即重复出现的状态变化,来发现具有目的性的、时间上延展的行为(选项)。通过将这些目的视为具有学习到的内在奖励信号的内在子目标,智能体能够获得复杂且目标导向的策略,显著提升了稀疏奖励环境中的探索效率,如在完全可观测和部分可观测设置下,状态空间可达性的提升所证实。
Artificial intelligence is commonly defined as the ability to achieve goals in the world. In the reinforcement learning framework, goals are encoded as reward functions that guide agent behaviour, and the sum of observed rewards provide a notion of progress. However, some domains have no such reward signal, or have a reward signal so sparse as to appear absent. Without reward feedback, agent behaviour is typically random, often dithering aimlessly and lacking intentionality. In this paper we present an algorithm capable of learning purposeful behaviour in the absence of rewards. The algorithm proceeds by constructing temporally extended actions (options), through the identification of purposes that are "just out of reach" of the agent's current behaviour. These purposes establish intrinsic goals for the agent to learn, ultimately resulting in a suite of behaviours that encourage the agent to visit different parts of the state space. Moreover, the approach is particularly suited for settings where rewards are very sparse, and such behaviours can help in the exploration of the environment until reward is observed.
研究动机与目标
- 解决在无奖励或奖励极度稀疏的环境中训练智能体的挑战。
- 使智能体能够在不依赖外部奖励的情况下发展出意图性和结构化行为。
- 从非结构化的探索中自动发现有用的时间延展动作(选项)。
- 通过基于可观测状态变化的内在子目标,提升探索效率。
- 在无奖励的不完全可观测环境中实现有效学习。
提出的方法
- 该算法在智能体随机行为期间识别‘特征本征目的’——即状态特征中重复出现的可观测变化。
- 每个特征本征目的被转换为一个内在子目标,形成具有学习到的内在奖励函数的新选项。
- 通过分析随机探索中的状态转移,迭代式地发现选项,使用线性函数逼近以保证可扩展性。
- 该方法确保在任意有限MDP中,所有发现的选项均能终止,从而保证学习过程的推进。
- 智能体利用这些选项在状态空间中探索得更远,从而提高此前罕见或无法到达状态的访问频率。
- 该方法兼容函数逼近,使其可应用于更大规模的环境,如Arcade Learning Environment。
实验结果
研究问题
- RQ1智能体是否能在完全缺乏外部奖励信号的情况下学习到具有目的性、目标导向的行为?
- RQ2如何在无奖励信号的情况下,从非结构化的探索中自动发现内在子目标?
- RQ3基于状态转移推导出的特征本征目的能否生成有效且时间延展的选项?
- RQ4在状态信息有限的部分可观测环境中,该算法表现如何?
- RQ5与随机动作选择相比,所发现的选项是否能显著提升探索效率?
主要发现
- 在完全可观测设置下,智能体从起点状态的最大距离从29.3增加到298.9,经过六轮迭代,表明可达性显著提升。
- 平均选项长度从12.1增加到27.8个动作,表明行为日益复杂且更具目的性。
- 在部分可观测环境中,智能体仍能发现‘翻转位’类型的选项,但由于状态可见性降低,每轮发现的选项数量减少。
- 在部分可观测条件下,从起点的最大距离达到352.4,表明即使信息有限,系统仍具鲁棒性。
- 发现的选项数量随时间增加(在完全可观测下从5.9增加到9.5),表明持续探索了新的目的。
- 该算法保证在有限MDP中所有发现的选项均可终止,从而确保学习动态的稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。