QUICK REVIEW

[논문 리뷰] Federated Deep Reinforcement Learning

Hankz Hankui Zhuo, Wenfeng Feng|arXiv (Cornell University)|2019. 01. 24.

Privacy-Preserving Technologies in Data참고 문헌 26인용 수 86

한 줄 요약

FedRL은 두 프라이버시 보호 에이전트가 공유된 MLP를 통해 노이즈가 있는 출력을 공유하며 연합적으로 고품질 Q-네트워크를 학습하도록 하여 데이터 및 모델 프라이버시를 보호하면서 성능을 향상시킨다.

ABSTRACT

In deep reinforcement learning, building policies of high-quality is challenging when the feature space of states is small and the training data is limited. Despite the success of previous transfer learning approaches in deep reinforcement learning, directly transferring data or models from an agent to another agent is often not allowed due to the privacy of data and/or models in many privacy-aware applications. In this paper, we propose a novel deep reinforcement learning framework to federatively build models of high-quality for agents with consideration of their privacies, namely Federated deep Reinforcement Learning (FedRL). To protect the privacy of data and models, we exploit Gausian differentials on the information shared with each other when updating their local models. In the experiment, we evaluate our FedRL framework in two diverse domains, Grid-world and Text2Action domains, by comparing to various baselines.

연구 동기 및 목표

상태 특징 공간이 다르고 데이터가 비공개일 때 고품질 정책 학습의 동기를 부여한다.
Gaussian differential privacy로 데이터를 보호하는 연합 RL 프레임워크(FedRL)를 제안한다.
두 에이전트가 공유 글로벌 값 네트워크를 사용해 프라이빗 Q-네트워크를 협력적으로 학습하게 한다.
Grid-World 및 Text2Action 도메인에서 FedRL을 시연하고 베이스라인과 비교한다.

제안 방법

각 에이전트는 파라미터 theta_alpha 또는 theta_beta를 갖는 로컬 Q-네트워크와 theta_g를 갖는 공유 글로벌 MLP를 유지한다.
로컬 Q-네트워크의 출력은 hat{Q}_alpha 및 hat{Q}_beta를 형성하도록 가우시안 노이즈로 섭동된다.
연합 Q-네트워크 Q_f는 연결된 노이즈 출력들의 MLP로 구성된다: Q_f = MLP([hat{Q}_alpha; hat{Q}_beta]; theta_g).
각 에이전트는 자신의 Q-네트워크와 공유 MLP를 업데이트하는 동안 상대 에이전트의 노이즈 Q-네트워크를 고정된 입력으로 취급한다.
학습은 Y^j를 기반으로 제곱 오차 L^j_alpha와 L^j_beta를 최소화한다. 여기서 Y^j = r^j + gamma * max_a Q_f^alpha(s_alpha^j,a,C_beta; theta_alpha, theta_g) (alpha에 대해)이고, beta의 경우 rewards가 없는 점만 다르다.
Privacy is achieved by adding Gaussian noise to Q-network outputs rather than gradients, using differential privacy principles.

실험 결과

연구 질문

RQ1비-identical state spaces 및 비공개 데이터를 가진 에이전트에서 연합 학습이 정책 품질을 향상시킬 수 있는가?
RQ2프라이버시 제약 없이 두 에이전트를 중앙 집중적으로 데이터 결합했을 때와 FedRL의 성능 차이는 어느 정도인가?
RQ3Gaussian differential privacy가 FedRL의 학습 성능에 미치는 영향은 무엇인가?

주요 결과

방법	8x8 성공률	16x16 성공률	32x32 성공률	8x8 평균 보상	16x16 평균 보상	32x32 평균 보상
FCN-alpha	69.73%	48.04%	41.73%	-	-	-
DQN-alpha	88.27%	76.20%	71.41%	-112.084	-112.084	-285.946
FedRL-1	92.52%	79.83%	77.88%	-94.193	-94.193	-226.583
FedRL-2	95.06%	84.31%	82.02%	-84.139	-84.139	-189.756
FCN-full	72.16%	56.44%	50.15%	-38.114	-38.114	-52.72
DQN-full	93.69%	83.40%	79.73%	-38.114	-38.114	-52.72

FedRL-2 (Gaussian privacy 사용) 은 Grid-World SuccRate에서 8x8, 16x16, 32x32 도메인 전반에 걸쳐 FedRL-1 및 baseline DQN-alpha보다 일관되게 우수한 성과를 보인다.
FedRL-2는 Grid-World 크기에 따라 DQN-full(중앙 집중 데이터)과 근접하거나 그에 근접한 SuccRate를 달성하여 프라이버시 보존 협업이 효과적임을 시사한다.
Grid-World에서 FedRL-2는 DQN-alpha 및 FedRL-1보다 더 높은 AvgRwd를 달성하며 도메인 크기가 커질수록 DQN-full 성능에 근접한다.
Text2Action에서 FedRL-2는 WHS, WHG, CT 데이터셋에서 F1 및 AvgRwd에서 FCN-alpha 및 DQN-alpha를 능가하고 DQN-full과의 경쟁력이 있다.
FedRL은 프라이버시 보존 공유를 통한 연합 학습이 데이터나 모델을 직접 공유하지 않고도 고품질 정책을 yield할 수 있음을 보여준다.
역사 길이가 FedRL 성능에 미치는 영향이 있으며, 더 긴 히스토리는 성공률을 향상시키고 FedRL-2는 제한된 히스토리에서도 견고한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.