Skip to main content
QUICK REVIEW

[論文レビュー] Differential Privacy-enabled Federated Learning for Sensitive Health Data

Olivia Choudhury, Aris Gkoulalas-Divanis|arXiv (Cornell University)|Oct 7, 2019
Privacy-Preserving Technologies in Data参考文献 31被引用数 169
ひとこと要約

論文は、二段階でプライバシーを保つ分散健康データ向けフェデレーテッドラーニングフレームワークを提示し、実世界データセットを用いて性能への影響を評価する。データの生データ共有なしと目的パ perturbationによる差分プライバシーの双方を実現。

ABSTRACT

Leveraging real-world health data for machine learning tasks requires addressing many practical challenges, such as distributed data silos, privacy concerns with creating a centralized database from person-specific sensitive data, resource constraints for transferring and integrating data from multiple sites, and risk of a single point of failure. In this paper, we introduce a federated learning framework that can learn a global model from distributed health data held locally at different sites. The framework offers two levels of privacy protection. First, it does not move or share raw data across sites or with a centralized server during the model training process. Second, it uses a differential privacy mechanism to further protect the model from potential privacy attacks. We perform a comprehensive evaluation of our approach on two healthcare applications, using real-world electronic health data of 1 million patients. We demonstrate the feasibility and effectiveness of the federated learning framework in offering an elevated level of privacy and maintaining utility of the global model.

研究の動機と目的

  • 規制制約の下でデータサイロ間の分散した機微データを学習する挑戦を動機づけ、解決する。
  • 生データを共有せず、モデル更新を保護する差分プライバシーを組み込んだフェデレーテッドラーニングフレームワークを提案する。
  • ヘルスケアタスクにおけるプライバシー(epsilon)と有用性(モデル性能)のトレードオフを評価する。
  • 実世界データセットを用いてフレームワークの実現可能性とプライバシーと有用性のバランスを評価する。

提案手法

  • ローカルサイトがデータ上でグローバルモデルを訓練し、集約のためにパラメータ更新のみを共有するフェデレーテッドラーニング設定を説明する。
  • ローカル目的関数にノイズを加えることによる目的擾乱を通じて差分プライバシーを組み込み、private minimizerを得る。
  • 分散学習に適した勾配降下法対応の分類器(パーセプトロン、SVM、ロジスティック回帰)に焦点を当てる。
  • DPパラメータepsilonを変化させてプライバシーと有用性のトレードオフを評価し、F1スコアを測定する。
  • 10サイトに跨る実世界の健康データセット(ADR予測用のLCEDと死亡予測用のMIMIC III)を使用する。
  • 集中学習、標準的なフェデレーテッド学習、DP付きフェデレーテッド学習を、複数のモデルと複数のプライバシーレベルで比較する。

実験結果

リサーチクエスチョン

  • RQ1生データを共有せずに分散医療データでフェデレーテッド学習はどれくらい性能を発揮するのか?
  • RQ2目的擾乱によるepsilon-differential privacyを導入した場合、医療タスクの予測性能にどのような影響が生じるのか?
  • RQ3DP対応のFLモデルは実世界の健康データで集中型または標準FLと同等の有用性を維持できるのか?
  • RQ4医療データセットにDPを適用する場合、プライバシーと有用性のトレードオフはどうなるのか?

主な発見

  • DPなしのフェデレーテッドラーニングはADR(LCED)と死亡率(MIMIC III)で集中学習に近い性能を達成する。
  • 目的擾乱によるepsilon-differential privacyの導入は、分散訓練プロセスのノイズによりモデル有用性を低下させる。
  • DP対応FLはより強いプライバシー保証を提供するが、医療設定では予測性能を大幅に低下させる可能性がある。
  • データセットと分類器を跨いで、プライバシーが強化されるほど有用性が低下する傾向があり、プライバシー-有用性のトレードオフが見られる。
  • 現実的な医療シナリオではサイト数が限られる場合、DPはFLの最良の適合とは言えない可能性があり、代替的なプライバシー手法の検討を促す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。