QUICK REVIEW

[논문 리뷰] Multi-hop Federated Private Data Augmentation with Sample Compression

Eunjeong Jeong, Seungeun Oh|arXiv (Cornell University)|2019. 07. 15.

Privacy-Preserving Technologies in Data참고 문헌 13인용 수 21

한 줄 요약

이 논문은 통신 지연을 줄이고 데이터 프라이버시를 향상시키면서도 고정밀도 모델 성능을 유지하기 위해 다중 홉 릴레이와 샘플 압축을 활용하는 프라이버시 보장형 데이터 증강 프레임워크인 Multi-hop Federated Augmentation with Sample Compression (MultFAug)를 제안한다. 시드 샘플을 압축하고 중간 기기들을 통해 릴레이함으로써 MultFAug는 레이블 프라이버시를 향상시키고 통신 효율성을 높이며, 최적의 홉 수와 압축률을 통해 높은 모델 정확도를 유지를 한다.

ABSTRACT

On-device machine learning (ML) has brought about the accessibility to a tremendous amount of data from the users while keeping their local data private instead of storing it in a central entity. However, for privacy guarantee, it is inevitable at each device to compensate for the quality of data or learning performance, especially when it has a non-IID training dataset. In this paper, we propose a data augmentation framework using a generative model: multi-hop federated augmentation with sample compression (MultFAug). A multi-hop protocol speeds up the end-to-end over-the-air transmission of seed samples by enhancing the transport capacity. The relaying devices guarantee stronger privacy preservation as well since the origin of each seed sample is hidden in those participants. For further privatization on the individual sample level, the devices compress their data samples. The devices sparsify their data samples prior to transmissions to reduce the sample size, which impacts the communication payload. This preprocessing also strengthens the privacy of each sample, which corresponds to the input perturbation for preserving sample privacy. The numerical evaluations show that the proposed framework significantly improves privacy guarantee, transmission delay, and local training performance with adjustment to the number of hops and compression rate.

연구 동기 및 목표

현장 기반 머신러닝에서 비독립적이고 비균형적이며 프라이버시 민감한 데이터의 과제를 해결하기 위해.
연합 데이터 증강에서 통신 오버헤드와 업링크 지연을 줄이면서도 강력한 프라이버시 보장을 유지하기 위해.
시드 샘플의 다중 홉 릴레이를 통해 개별 기기의 데이터 분포를 숨김으로써 레이블 프라이버시를 향상시키기 위해.
전송 전에 샘플에서 무작위 비트를 제거함으로써 샘플 수준의 프라이버시를 향상시키기 위한 데이터 압축을 통해.
통신 효율성, 프라이버시, 모델 성능 간의 균형을 위해 홉 수(M)와 압축률(ρ)을 공동 최적화하기 위해.

제안 방법

기기들이 다중 홉 프로토콜을 사용해 시드 샘플을 중간 기기들을 통해 릴레이함으로써, 개별 홉 거리의 단축으로 인해 종단 간 전송 지연을 감소시킨다.
각 기기는 시드 샘플을 무작위로 비트를 삭제함으로써 압축률 ρ를 적용하여 통신 페이로드를 줄이고, 입력 편향을 통해 샘플 수준의 프라이버시를 향상시킨다.
레이블 프라이버시를 유지하기 위해, 기기들은 공개 데이터 분포 지표(SDI)에 더미 레이블 지표를 삽입하여 직접 관찰할 수 없는 진짜 비공개 SDI를 숨긴다.
엣지 서버는 여러 기기들로부터 오는 과도하게 샘플링된 시드 샘플을 수거하고, 이들 압축 및 다중 홉 처리된 샘플을 사용해 조건부 GAN(cGAN) 생성자 모델을 훈련시킨다.
각 기기는 훈련된 cGAN 생성자를 다운로드하고, 이를 사용해 현장에서 데이터 증강을 수행함으로써 모델 훈련 성능을 향상시킨다.
시스템은 통신 효율성, 프라이버시, 모델 성능 간의 균형을 위해 홉 수(M)와 압축률(ρ)을 공동 최적화한다.

실험 결과

연구 질문

RQ1다중 홉 통신은 연합 데이터 증강에서 종단 간 지연과 프라이버시에 어떤 영향을 미치는가?
RQ2샘플 압축은 현장 학습에서 통신 오버헤드와 샘플 수준의 프라이버시에 어떤 영향을 미치는가?
RQ3화이트 수준의 영향을 고려할 때 홉 수는 레이블 프라이버시와 훈련된 생성자 품질에 어떤 영향을 미치는가?
RQ4F1 점수와 샘플 품질 측면에서 최적의 압축률(ρ)과 생성자 성능 간의 상호 균형은 무엇인가?
RQ5지연과 레이블 프라이버시 제약 조건이 제안된 프레임워크에서 로컬 모델의 테스트 정확도에 공동으로 어떤 영향을 미치는가?

주요 결과

지연 한도 τ=25일 경우, 2~3 홉에서 업링크 지연이 최소화되어 테스트 정확도가 최대가 되며, 이보다 높은 홉 수는 엄격한 한도 하에서 정확도를 떨어뜨린다.
레벨 프라이버시 보장은 홉 수가 증가할수록 향상되며, 엄격한 한도(τ=25) 하에서 M=4에서 최고에 도달하여 프라이버시를 위한 최적의 홉 수가 있음을 시사한다.
압축률 ρ=0.15일 경우, cGAN 생성자는 숫자 0, 1, 2, 6에 대해 증강 샘플을 생성하지 못해 고압축이 생성자 성능을 떨어뜨린다는 것을 보여준다.
압축률 ρ가 증가할수록 훈련 샘플의 노이즈가 증가함에 따라 훈련된 생성자의 F1 점수가 감소하지만, 샘플 프라이버시는 향상된다.
긴 지연 한도(τ) 하에서는 프rotocol에 관계없이 더 많은 홉 수와 더 많은 수거된 시드 샘플이 더 높은 테스트 정확도를 이끌어낸다.
단일 홉 FAug와 비교해 유사한 테스트 정확도를 달성하지만, 지연은 감소하고 프라이버시는 더 강화되며, 특히 홉 수와 압축률 최적화 시 더욱 두드러진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.