[论文解读] Decentralized Likelihood Quantile Networks for Improving Performance in Deep Multi-Agent Reinforcement Learning
本文提出去中心化似然分位数网络(DLQN),通过自动调度价值高估来提升深度多智能体强化学习中的样本效率与收敛性。通过去中心化地估计回报分布的分位数,DLQN 稳定了学习过程,并使智能体即使在队友行为次优的情况下也能收敛至联合最优策略。
Recent successes of value-based multi-agent deep reinforcement learning employ optimism by limiting underestimation updates of value function estimator, through carefully controlled learning rate (Omidshafiei et al., 2017) or reduced update probability (Palmer et al., 2018). To achieve full cooperation when learning independently, an agent must estimate the state values contingent on having optimal teammates; therefore, value overestimation is frequency injected to counteract negative effects caused by unobservable teammate sub-optimal policies and explorations. Aiming to solve this issue through automatic scheduling, this paper introduces a decentralized quantile estimator, which we found empirically to be more stable, sample efficient and more likely to converge to the joint optimal policy.
研究动机与目标
- 解决由于无法观测到次优队友策略和探索行为而导致的多智能体深度强化学习中价值函数低估问题。
- 提升多智能体系统独立训练过程中的学习稳定性和样本效率。
- 通过自动调度价值高估,使智能体在无需集中协调的情况下收敛至联合最优策略。
- 克服以往方法依赖固定超参数(如学习率或更新概率)实现乐观性所带来的局限性。
提出的方法
- 引入一种去中心化的分位数估计器,利用分位数网络对回报分布进行建模,实现在无集中协调情况下的每个智能体独立估计。
- 采用基于似然的训练方法优化分位数网络参数,确保分布估计的鲁棒性与稳定性。
- 通过分位数分布动态调度价值高估,降低对固定乐观性启发式方法的依赖。
- 通过为每个智能体单独维护分位数头,实现价值估计与策略学习的解耦,支持独立训练。
- 应用基于似然的目标函数训练分位数网络,提升模型校准性与收敛特性。
- 通过允许每个智能体仅使用本地观测与动作独立估计自身价值函数,确保方法的去中心化特性。
实验结果
研究问题
- RQ1基于去中心化分位数的方法是否能提升独立多智能体深度强化学习中的稳定性和样本效率?
- RQ2通过分位数估计实现的价值高估自动调度是否能带来更优的联合最优策略收敛性能?
- RQ3所提出方法与现有基于乐观性的方法(如固定学习率或固定更新概率)相比表现如何?
- RQ4该方法在多大程度上缓解了因无法观测到队友次优行为和探索行为导致的性能下降?
主要发现
- 所提出的去中心化似然分位数网络(DLQN)相比依赖固定乐观性启发式的基线方法,展现出更优的学习稳定性。
- DLQN 表现出更高的样本效率,收敛所需与环境交互次数更少。
- 该方法在合作型多智能体环境中更有可能收敛至联合最优策略。
- 实验结果表明,通过分位数估计实现的价值高估自动调度,优于固定率与固定概率的乐观策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。