QUICK REVIEW

[논문 리뷰] Performance Analysis and Optimization in Privacy-Preserving Federated Learning

Kang Wei, Jun Li|arXiv (Cornell University)|2020. 02. 29.

Privacy-Preserving Technologies in Data참고 문헌 18인용 수 11

한 줄 요약

이 논문은 페더레이티드 러닝을 위한 클라이언트 수준의 차별적 프라이버시(CDP) 프레임워크를 제안한다. 이 프레임워크는 모델 업데이트에 통제된 노이즈를 추가하여 프라이버시를 향상시키면서도 학습 효율성을 유지한다. 이론적 수렴 상한을 유도하고 통신 라운드 할인(CRD) 방법을 도입함으로써, 프라이버시, 모델 정확도, 통신 비용 사이의 최적의 트레이드오프를 달성하여 고정된 프라이버시 예산 하에서 페더레이티드 러닝 성능을 크게 향상시킨다.

ABSTRACT

As a means of decentralized machine learning, federated learning (FL) has recently drawn considerable attentions. One of the prominent advantages of FL is its capability of preventing clients' data from being directly exposed to external adversaries. Nevertheless, via a viewpoint of information theory, it is still possible for an attacker to steal private information from eavesdropping upon the shared models uploaded by FL clients. In order to address this problem, we develop a novel privacy preserving FL framework based on the concept of differential privacy (DP). To be specific, we first borrow the concept of local DP and introduce a client-level DP (CDP) by adding artificial noises to the shared models before uploading them to servers. Then, we prove that our proposed CDP algorithm can satisfy the DP guarantee with adjustable privacy protection levels by varying the variances of the artificial noises. More importantly, we derive a theoretical convergence upper-bound of the CDP algorithm. Our derived upper-bound reveals that there exists an optimal number of communication rounds to achieve the best convergence performance in terms of loss function values for a given privacy protection level. Furthermore, to obtain this optimal number of communication rounds, which cannot be derived in a closed-form expression, we propose a communication rounds discounting (CRD) method. Compared with the heuristic searching method, our proposed CRD can achieve a much better trade-off between the computational complexity of searching for the optimal number and the convergence performance. Extensive experiments indicate that our CDP algorithm with an optimization on the number of communication rounds using the proposed CRD can effectively improve both the FL training efficiency and FL model quality for a given privacy protection level.

연구 동기 및 목표

공유된 모델 업데이트가 개인 정보를 泄露할 수 있는 모델 역공학 공격의 위험을 해결하기 위해 페더레이티드 러닝에서의 프라이버시 위험을 해결한다.
모델 업데이트에 인위적 노이즈를 추가하여 공식적인 프라이버시 보장을 보장하는 클라이언트 수준의 차별적 프라이버시(CDP) 메커니즘을 개발한다.
노이즈 분산과 프라이버시 예산이 다양할 때 CDP 알고리즘의 수렴 행동을 이론적으로 분석한다.
주어진 프라이버시 수준에서 모델 수렴 성능을 최대화하는 최적의 통신 라운드 수를 규명한다.
히우리스틱 검색에 의존하지 않고 최적의 라운드 수를 효율적으로 찾는 데 통신 라운드 할인(CRD) 방법을 제안한다.

제안 방법

서버에 업로드하기 전에 모델 업데이트에 라플라스 또는 가우시안 노이즈를 주입하여 클라이언트 수준의 차별적 프라이버시(CDP)를 도입한다.
CDP 메커니즘이 (ε, δ)-차별적 프라이버시를 만족함을 증명하며, 노이즈 분산을 조절하여 프라이버시 파라미터를 조정할 수 있다.
손실 함수의 관점에서 CDP 알고리즘의 이론적 수렴 상한을 유도하여 프라이버시와 수렴 속도 사이의 트레이드오프를 보여준다.
수렴 상한에서 유도된 바에 따라, 프라이버시 예산과 모델 복잡도의 함수로서 최적의 통신 라운드 수를 수식으로 기술한다.
히트앤드리스크 검색 없이도 최적의 라운드 수를 효율적으로 근사하는 데 통신 라운드 할인(CRD) 방법을 제안한다.
CRD를 학습 파이프라인에 통합하여 동적으로 통신 빈도를 조정하고 학습 효율성을 향상시킨다.

실험 결과

연구 질문

RQ1클라이언트 수준의 차별적 프라이버시는 페더레이티드 러닝에 효과적으로 적용되어 모델 역공학 공격을 방지하면서도 모델 유틸리티를 유지할 수 있는가?
RQ2클라이언트 모델 업데이트에 노이즈를 추가하면 페더레이티드 러닝에서 수렴 속도와 최종 모델 성능에 어떤 영향을 미치는가?
RQ3주어진 프라이버시 예산에 대해 모델 수렴 성능을 최대화하는 최적의 통신 라운드 수가 존재하는가?
RQ4최적의 통신 라운드 수에 대한 폐쇄형 해를 도출할 수 있는가, 아니면 근사가 불가피한가?
RQ5제안된 CRD 방법은 계산 비용과 수렴 성능의 균형을 이루는 데 히어스틱 검색보다 뛰어난가?

주요 결과

제안된 CDP 프레임워크는 (ε, δ)-차별적 프라이버시를 만족하며, 주입된 노이즈의 분산 조절을 통해 프라이버시 보장을 조정할 수 있다.
이론적 수렴 상한은 고정된 프라이버시 수준에서 손실 함수 값을 최소화하는 데 최적의 통신 라운드 수가 존재함을 보여준다.
CRD 방법은 히어스틱 검색 방법에 비해 계산 비용과 수렴 성능 사이의 균형을 훨씬 더 잘 달성한다.
광범위한 실험을 통해 CDP 알고리즘에 CRD 최적화를 적용하면 동일한 프라이버시 예산 하에서 학습 효율성과 최종 모델 정확도가 모두 향상됨을 확인했다.
최적의 통신 라운드 수는 해석적으로 폐쇄형으로 풀 수 없으며, 따라서 CRD와 같은 근사 방법의 사용이 필수적이다.
이 방법은 프라이버시, 모델 품질, 통신 효율성 사이의 균형을 효과적으로 유지하여 실세계 페더레이티드 러닝 시스템에 실용적인 타당성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.