Skip to main content
QUICK REVIEW

[論文レビュー] Privacy-Preserving Distributed Deep Learning for Clinical Data

Brett K. Beaulieu‐Jones, William Yuan|arXiv (Cornell University)|Dec 4, 2018
Privacy-Preserving Technologies in Data参考文献 8被引用数 28
ひとこと要約

本論文は、複数の医療機関間で生々しい患者データを共有せずに神経ネットワークの共同学習を可能にする、微分プライバシーを適用した分散ディープラーニングフレームワークを提案する。サイクル的重み転送とRényi微分プライバシー、プライバシー会計を統合することで、高いモデル性能を維持しつつ、明示的なプライバシー保証を達成した。eICUおよびTCGAデータセットを用いた実験では、分散プライベート環境下でもAUROCスコアが0.79以上を達成した。

ABSTRACT

Deep learning with medical data often requires larger samples sizes than are available at single providers. While data sharing among institutions is desirable to train more accurate and sophisticated models, it can lead to severe privacy concerns due the sensitive nature of the data. This problem has motivated a number of studies on distributed training of neural networks that do not require direct sharing of the training data. However, simple distributed training does not offer provable privacy guarantees to satisfy technical safe standards and may reveal information about the underlying patients. We present a method to train neural networks for clinical data in a distributed fashion under differential privacy. We demonstrate these methods on two datasets that include information from multiple independent sites, the eICU collaborative Research Database and The Cancer Genome Atlas.

研究の動機と目的

  • プライバシー上の懸念により中央集積が不可能な状況下で、臨床データに対する正確なディープラーニングモデルを学習する課題に対処すること。
  • 機関が自身の生データを保持する分散学習環境において、明示的なプライバシー保証を提供すること。
  • 通信オーバーヘッドを低減し、分散学習における中央コーディネータの必要性を排除すること。
  • eICUやTCGAのような異種で多施設にまたがる臨床データセットに対し、プライバシー保護型のモデル学習を可能にすること。
  • Rényi微分プライバシーとプライバシー会計を用いて、プライバシー損失を定量化および最小化すること。

提案手法

  • 本手法は、中央サーバーを必要とせず、機関間で定期的にモデル重みを交換することで分散学習を可能にするサイクル的重み転送を採用する。
  • 学習中に勾配に調整されたノイズを追加することで微分プライバシーを実装し、ノイズスケールσを調整して所望のプライバシー予算(ε, δ)を達成する。
  • Rényi微分プライバシーに基づくプライバシー会計を用いて、複数の学習イテレーションにわたる累積的プライバシー損失を計算し、標準的合成定理に比べてより緊密な境界を得る。
  • 本フレームワークは中央集権的および完全分散型の両方の学習モードをサポートし、個々の機関のリスクを評価するために各機関ごとのプライバシー保証を計算する。
  • モデル性能は、eICUにおける死亡予測タスクとTCGAにおけるがん亜型分類タスクにおいてAUROCを用いて評価する。
  • データはmin-max正規化と特徴選択(例:TCGAにおける上位500個の変動遺伝子)を施して、有用性の向上と次元削減を図る。

実験結果

リサーチクエスチョン

  • RQ1中央データリポジトリを必要とせず、明示的なプライバシー保証を提供する分散ディープラーニングフレームワークを設計できるか?
  • RQ2微分プライバシーとサイクル的重み転送を統合した場合、多施設臨床データ環境下でのモデル性能にどのような影響を与えるか?
  • RQ3データサイズが異なる機関間での分散学習において、プライバシー予算(ε)とモデル精度のトレードオフはどのように変化するか?
  • RQ4データが小規模で非同一の機関に分散している状況でも、本手法は高い性能を維持できるか?
  • RQ5本設定において、Rényi微分プライバシーに基づくプライバシー会計は、標準的合成定理に比べてプライバシー損失推定をどのように改善するか?

主な発見

  • eICU死亡予測タスクにおいて、5機関の分散プライベートモデルはAUROC 0.792を達成し、非プライベート分散ベースライン(0.801)と比較してわずかに低い性能にとどまった。
  • TCGA BRCA分類タスクにおいて、3サイトの分散プライベートモデルはAUROC 0.744を達成したが、非プライベート分散環境では0.761を記録した。
  • eICU分散設定では、すべての機関における最大プライバシー損失(ε)は3.84に達し、δは10−5に固定されており、強力なプライバシー保護を示している。
  • TCGA設定では、最小のサイト(サイト#3)で最大のε(6.11)が観測され、データサイズに応じてプライバシー損失が増加することを示した。
  • 中央集権的プライベート学習プロトコルに比べ、本手法は中央サーバーとの頻繁な勾配交換を回避することで、顕著な通信オーバーヘッドの低減を達成した。
  • 本フレームワークは、厳密なプライバシー制約下でもモデルの有用性を効果的に維持した。微分プライバシーが分散臨床機械学習に実効的に適用可能であることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。