Skip to main content
QUICK REVIEW

[論文レビュー] Multi-hop Federated Private Data Augmentation with Sample Compression

Eunjeong Jeong, Seungeun Oh|arXiv (Cornell University)|Jul 15, 2019
Privacy-Preserving Technologies in Data参考文献 13被引用数 21
ひとこと要約

本稿では、マルチホップリレーやサンプル圧縮を用いて通信遅延を低減し、データプライバシーを強化する、オンデバイス機械学習向けのプライバシー保護型データ拡張フレームワークである、マルチホップフェデレーテッド拡張(MultFAug)を提案する。シードサンプルを圧縮し、中間デバイスを介してルーティングすることで、MultFAugはラベルプライバシーと通信効率を向上させつつ、最適なホップ数と圧縮率を用いることで高いモデル精度を維持する。

ABSTRACT

On-device machine learning (ML) has brought about the accessibility to a tremendous amount of data from the users while keeping their local data private instead of storing it in a central entity. However, for privacy guarantee, it is inevitable at each device to compensate for the quality of data or learning performance, especially when it has a non-IID training dataset. In this paper, we propose a data augmentation framework using a generative model: multi-hop federated augmentation with sample compression (MultFAug). A multi-hop protocol speeds up the end-to-end over-the-air transmission of seed samples by enhancing the transport capacity. The relaying devices guarantee stronger privacy preservation as well since the origin of each seed sample is hidden in those participants. For further privatization on the individual sample level, the devices compress their data samples. The devices sparsify their data samples prior to transmissions to reduce the sample size, which impacts the communication payload. This preprocessing also strengthens the privacy of each sample, which corresponds to the input perturbation for preserving sample privacy. The numerical evaluations show that the proposed framework significantly improves privacy guarantee, transmission delay, and local training performance with adjustment to the number of hops and compression rate.

研究の動機と目的

  • オンデバイス機械学習における非IID、限られた、かつプライバシーに配慮が必要なデータの課題に対処すること。
  • フェデレーテッドデータ拡張における通信オーバーヘッドとアップリンク遅延を低減しながら、強力なプライバシー保証を維持すること。
  • シードサンプルのマルチホップリレーフレームワークにより、個々のデバイスのデータ分布を隠すことでラベルプライバシーを強化すること。
  • 送信前にランダムにビットを削除するデータ圧縮により、サンプルレベルのプライバシーを向上させること。
  • 通信効率、プライバシー、モデルパフォーマンスのバランスを取るために、ホップ数(M)と圧縮率(ρ)を共同最適化すること。

提案手法

  • デバイスはマルチホッププロトコルを用いて、中間デバイスを通じてシードサンプルをリレーむことで、個々のホップ距離を短縮し、エンドツーエンドの伝送遅延を低減する。
  • 各デバイスは、シードサンプルをランダムにビットを削除することで圧縮(圧縮率ρ)し、通信ペイロードを削減するとともに、入力の摂動によってサンプルレベルのプライバシーを向上させる。
  • ラベルプライバシーを維持するため、デバイスは公開データ分布インジケータ(SDI)にダミーのラベルインジケータを挿入し、直接観測できないように真のプライベートSDIを隠す。
  • エッジサーバーは複数のデバイスから得たオーバーサンプル済みのシードサンプルを収集し、これらの圧縮済みかつマルチホップされたサンプルを用いて条件付きGAN(cGAN)ジェネレータを学習する。
  • 各デバイスは学習済みのcGANジェネレータをダウンロードし、ローカルでデータ拡張を実行してオンデバイスモデルの訓練を改善する。
  • 本システムは、通信効率、プライバシー、モデルパフォーマンスのバランスを取るために、ホップ数(M)と圧縮率(ρ)を共同最適化する。

実験結果

リサーチクエスチョン

  • RQ1マルチホップ通信は、フェデレーテッドデータ拡張におけるエンドツーエンドの遅延とプライバシーにどのように影響するか?
  • RQ2サンプル圧縮は、オンデバイス学習における通信オーバーヘッドとサンプルレベルのプライバシーにどのような影響を及ぼすか?
  • RQ3ホップ数の変化がラベルプライバシーと学習済みジェネレータの品質に与える影響は何か?
  • RQ4F1スコアとサンプル品質の観点から、圧縮率(ρ)とジェネレータパフォーマンスの最適なトレードオフは何か?
  • RQ5遅延とラベルプライバシーの制約が、提案フレームワークにおけるローカルモデルのテスト精度にどのように同時に影響を及ぼすか?

主な発見

  • 遅延デッドラインτ=25の条件下では、2〜3ホップでテスト精度が最大化され、アップリンク遅延が最小化されるが、より高いホップ数ではタイトなデッドライン下で精度が低下する。
  • ラベルプライバシー保証はホップ数に比例し、タイトなデッドライン(τ=25)下ではM=4でピークに達し、プライバシーに最適なホップ数が存在することが示された。
  • 圧縮率ρ=0.15では、cGANジェネレータが0、1、2、6の数字の拡張サンプルを生成できず、高圧縮がジェネレータのパフォーマンスを劣化させることを示している。
  • 圧縮率ρが上昇するにつれて、ノイズの多いトレーニングサンプルの影響で、学習済みジェネレータのF1スコアが低下するが、同時にサンプルプライバシーは向上する。
  • 長い遅延デッドライン(τ)下では、ホップ数が多く、収集されたシードサンプルの数が多いほど、どのプロトコルでもより高いテスト精度が得られる。
  • 本フレームワークは、ホップ数と圧縮率を最適化した場合、単一ホップのFAugと同等のテスト精度を達成するが、通信遅延は低く、プライバシーはより強化される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。