[论文解读] Diff-DAC: Distributed Actor-Critic for Average Multitask Deep Reinforcement Learning
Diff-DAC 是一种完全分布式的深度强化学习算法,通过代理之间的扩散通信机制,学习用于平均多任务强化学习的共享策略。通过从对偶理论推导演员-评论家算法,并使用深度神经网络近似,Diff-DAC 在无需经验回放缓冲区或目标网络的情况下,仍实现了优于 Dist-MTLPS 和集中式演员-评论家算法的渐近性能。
We propose a fully distributed actor-critic algorithm approximated by deep neural networks, named extit{Diff-DAC}, with application to single-task and to average multitask reinforcement learning (MRL). Each agent has access to data from its local task only, but it aims to learn a policy that performs well on average for the whole set of tasks. During the learning process, agents communicate their value-policy parameters to their neighbors, diffusing the information across the network, so that they converge to a common policy, with no need for a central node. The method is scalable, since the computational and communication costs per agent grow with its number of neighbors. We derive Diff-DAC's from duality theory and provide novel insights into the standard actor-critic framework, showing that it is actually an instance of the dual ascent method that approximates the solution of a linear program. Experiments suggest that Diff-DAC can outperform the single previous distributed MRL approach (i.e., Dist-MTLPS) and even the centralized architecture.
研究动机与目标
- 解决大规模多任务强化学习(MRL)中因地理分布数据带来的可扩展性和通信成本问题。
- 开发一种完全分布式的演员-评论家框架,使代理能够在无中心参数服务器的情况下学习共享策略。
- 克服先前分布式MRL方法的局限性,这些方法依赖线性函数逼近、顺序更新或需要昂贵的特征工程。
- 通过对偶理论对演员-评论家进行严谨推导,为策略梯度与优势函数的整合提供新的理论洞见。
- 证明在稀疏连接下,去中心化学习可实现比集中式训练更好的泛化性和稳定性。
提出的方法
- 将平均多任务强化学习问题建模为线性规划(LP),使用任务参数上的平均全局变量。
- 将演员-评论家算法作为对偶上升法推导,以求解LP的拉格朗日对偶鞍点问题,提供理论基础。
- 实施一种扩散策略,使代理以异步、顺序无关的方式与邻居交换价值函数和策略参数。
- 使用深度神经网络近似对偶变量(价值函数和策略),实现非线性函数逼近,并消除人工特征工程。
- 采用去中心化更新规则,每个代理基于本地经验与邻居参数的平均值来更新其策略和价值函数。
- 通过稀疏网络拓扑引入正则化效应,提升收敛性和泛化性能。
实验结果
研究问题
- RQ1完全分布式的演员-评论家算法是否能在多任务设置下,实现优于集中式和先前分布式MRL方法的渐近性能?
- RQ2基于扩散的通信策略在稳定性与收敛性方面,与顺序或集中协调方式相比表现如何?
- RQ3具有稀疏连接的去中心化架构在多大程度上起到正则化作用,从而改善泛化性能并避免陷入不良局部最优?
- RQ4深度神经网络能否在基于对偶理论推导的分布式对偶上升框架中实现有效集成?
- RQ5该方法是否可通过将策略网络基于任务参数进行条件化,实现零样本任务适应?
主要发现
- Diff-DAC 在单任务和多任务环境中均优于最先进的分布式MRL方法 Dist-MTLPS,实现了更高的渐近回报。
- 在倒立摆平衡和倒立摆任务中,尽管集中式演员-评论家(Cent-AC)收敛更快,Diff-DAC 仍取得了更优的最终性能。
- Diff-DAC 展现出卓越的稳定性,即使在无经验回放缓冲区或目标网络的情况下,也避免了集中基线方法中常见的振荡与发散现象。
- 该算法对网络稀疏性具有鲁棒性:拥有约 N/6 个邻居的稀疏网络,其性能可与拥有约 N/3 个邻居的密集网络相媲美。
- 当代理数量从 25 增加到 100 时,渐近性能进一步提升,表明该方法具备可扩展性,并能从集体经验中获益。
- 去中心化架构引入了正则化效应,使学习结果优于集中式训练,表明稀疏连接有助于提升泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。