Skip to main content
QUICK REVIEW

[论文解读] Federated Deep Reinforcement Learning

Hankz Hankui Zhuo, Wenfeng Feng|arXiv (Cornell University)|Jan 24, 2019
Privacy-Preserving Technologies in Data参考文献 26被引用 86
一句话总结

FedRL 通过在共享的 MLP 上共享带噪输出,使两个隐私保护代理能够联邦学习高质量的 Q 网络,在提升性能的同时保护数据与模型隐私。

ABSTRACT

In deep reinforcement learning, building policies of high-quality is challenging when the feature space of states is small and the training data is limited. Despite the success of previous transfer learning approaches in deep reinforcement learning, directly transferring data or models from an agent to another agent is often not allowed due to the privacy of data and/or models in many privacy-aware applications. In this paper, we propose a novel deep reinforcement learning framework to federatively build models of high-quality for agents with consideration of their privacies, namely Federated deep Reinforcement Learning (FedRL). To protect the privacy of data and models, we exploit Gausian differentials on the information shared with each other when updating their local models. In the experiment, we evaluate our FedRL framework in two diverse domains, Grid-world and Text2Action domains, by comparing to various baselines.

研究动机与目标

  • 在状态特征空间不同且数据私有的情况下,激励学习高质量策略。
  • 提出一个通过高斯差分隐私保护数据/模型的联邦 RL 框架(FedRL)。
  • 使两个代理能够使用一个共享的全局价值网络协同训练私有的 Q 网络。
  • 在 Grid-World 和 Text2Action 领域展示 FedRL,并与基线进行比较。

提出的方法

  • 每个代理维护一个局部 Q 网络,参数为 theta_alpha 或 theta_beta,且有一个共享的全局 MLP,参数为 theta_g。
  • 局部 Q 网络的输出加入高斯噪声,形成 hat{Q}_alpha 和 hat{Q}_beta。
  • 一个联邦 Q 网络 Q_f 作为对拼接的带噪输出的 MLP:Q_f = MLP([hat{Q}_alpha; hat{Q}_beta]; theta_g)。
  • 每个代理在更新自身 Q 网络和共享 MLP 时,将对方代理的带噪 Q 网络视为固定输入。
  • 训练最小化基于 Y^j 的平方损失 L^j_alpha 和 L^j_beta,其中 Y^j = r^j + gamma * max_a Q_f^alpha(s_alpha^j,a,C_beta; theta_alpha, theta_g) 对于 alpha,beta 的情况类似(beta 缺少奖励项)。
  • 通过对 Q 网络输出而非梯度添加高斯噪声来实现隐私,遵循差分隐私原理。

实验结果

研究问题

  • RQ1联邦学习是否能够在状态空间不同且数据私有的代理之间提升策略质量?
  • RQ2在不隐私约束的情况下,FedRL 能在多大程度上接近集中整合两代理数据的性能?
  • RQ3高斯差分隐私对 FedRL 的学习性能有何影响?

主要发现

方法8x8 成功率16x16 成功率32x32 成功率8x8 平均回报16x16 平均回报32x32 平均回报
FCN-alpha69.73%48.04%41.73%---
DQN-alpha88.27%76.20%71.41%-112.084-112.084-285.946
FedRL-192.52%79.83%77.88%-94.193-94.193-226.583
FedRL-295.06%84.31%82.02%-84.139-84.139-189.756
FCN-full72.16%56.44%50.15%-38.114-38.114-52.72
DQN-full93.69%83.40%79.73%-38.114-38.114-52.72
  • FedRL-2(带高斯隐私)在 Grid-World 成功率 Across 8x8、16x16、32x32 领域中持续优于 FedRL-1 和基线 DQN-alpha。
  • FedRL-2 在 Grid-World 尺寸下的成功率接近或接近 DQN-full(集中数据),表明隐私保护协作有效。
  • 在 Grid-World 中,FedRL-2 的平均回报高于 DQN-alpha 和 FedRL-1,且随着域大小增加而接近 DQN-full 的性能。
  • 在 Text2Action 中,FedRL-2 在 WHS、WHG 与 CT 数据集的 F1 和 AvgRwd 指标上均优于 FCN-alpha 与 DQN-alpha,并且与 DQN-full 相当。
  • FedRL 证明了在隐私保护共享下的联邦学习能够在不直接共享数据或模型的情况下产生高质量策略。
  • 历史长度影响 FedRL 的性能:更长的历史提升成功率,即使在历史有限时,FedRL-2 也显示出稳健的性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。