Skip to main content
QUICK REVIEW

[論文レビュー] CaPC Learning: Confidential and Private Collaborative Learning

Christopher A. Choquette-Choo, Natalie Dullerud|arXiv (Cornell University)|Feb 9, 2021
Privacy-Preserving Technologies in Data参考文献 36被引用数 24
ひとこと要約

CaPC Learningは、中央集約されたデータや共通のモデルアーキテクチャを必要とせずに、データの機密性とプライバシーを両方保持する、初めての機密でプライベートな共同機械学習手法を提供する。セキュアなマルチパーティ計算(MPC)、同型暗号化(HE)、およびプライベートに集約された教師モデルを組み合わせることで、各参加者が独立して自身のローカルモデルを改善しつつ、明示的および暗黙的なデータ漏洩を防ぐことが可能になる。

ABSTRACT

Machine learning benefits from large training datasets, which may not always be possible to collect by any single entity, especially when using privacy-sensitive data. In many contexts, such as healthcare and finance, separate parties may wish to collaborate and learn from each other's data but are prevented from doing so due to privacy regulations. Some regulations prevent explicit sharing of data between parties by joining datasets in a central location (confidentiality). Others also limit implicit sharing of data, e.g., through model predictions (privacy). There is currently no method that enables machine learning in such a setting, where both confidentiality and privacy need to be preserved, to prevent both explicit and implicit sharing of data. Federated learning only provides confidentiality, not privacy, since gradients shared still contain private information. Differentially private learning assumes unreasonably large datasets. Furthermore, both of these learning paradigms produce a central model whose architecture was previously agreed upon by all parties rather than enabling collaborative learning where each party learns and improves their own local model. We introduce Confidential and Private Collaborative (CaPC) learning, the first method provably achieving both confidentiality and privacy in a collaborative setting. We leverage secure multi-party computation (MPC), homomorphic encryption (HE), and other techniques in combination with privately aggregated teacher models. We demonstrate how CaPC allows participants to collaborate without having to explicitly join their training sets or train a central model. Each party is able to improve the accuracy and fairness of their model, even in settings where each party has a model that performs well on their own dataset or when datasets are not IID and model architectures are heterogeneous across parties.

研究の動機と目的

  • プライバシー規制の下で、両方の機密性とプライバシーを保持する必要がある共同機械学習におけるギャップを埋める。
  • フェデレーテッドラーニングの限界を克服する。フェデレーテッドラーニングは機密性は保証するが、勾配を通じてプライベート情報が漏洩する。
  • データ共有や事前に合意された中央モデルアーキテクチャを必要としない共同学習を可能にする。
  • 参加者間でモデルアーキテクチャの非均質性と非IIDデータ分布をサポートする。
  • 中央集約が不可能な共同学習環境において、証明可能なプライバシーと機密性を確保する。

提案手法

  • セキュアなマルチパーティ計算(MPC)を活用し、入力を露呈させずに分散型トレーニング計算を実行する。
  • 同型暗号化(HE)を用いて暗号化されたデータ上で計算を可能にし、モデル集約中もプライバシーを保持する。
  • プライベートに集約された教師モデルを導入し、訓練データを暴露せずに参加者間で知識を抽出・共有する。
  • モデルトレーニングとモデル集約を分離し、各参加者が自らのローカルモデルを独立してトレーニングおよび改善できるようにする。
  • 参加者間で送信する更新情報を、生データではなく暗号化またはオブスクリュート化されたモデル更新情報に限定する共同学習フレームワークを設計する。
  • 暗号的保証を通じて、両方の機密性(データ共有なし)とプライバシー(モデル出力からの推論なし)を確保する。

実験結果

リサーチクエスチョン

  • RQ1機密性とプライバシーの両方を保証する共同学習フレームワークを設計可能か?(プライバシー感受性の高いデータが存在する状況下で)。
  • RQ2生データの共有や中央モデルのトレーニングなしに、参加者がどのように自身のローカルモデルを改善できるか?
  • RQ3フレームワークは、参加者間で非均質なモデルアーキテクチャと非IIDデータ分布をサポートできるか?
  • RQ4どのような暗号技術を組み合わせれば、共同学習における明示的および暗黙的なデータ漏洩を防げるか?
  • RQ5モデルの精度と公平性を維持しつつ、証明可能なプライバシーと機密性を達成することは可能か?

主な発見

  • CaPC Learningは、生データや中央モデルを共有せずに、各参加者が自身のローカルモデルの精度と公平性を向上可能にする。
  • 本手法は機密性とプライバシーの両方を達成し、明示的なデータ共有およびモデル出力からの推論攻撃を防止する。
  • CaPCは非均質なモデルアーキテクチャと非IIDデータ分布をサポートし、実世界の共同学習環境に適している。
  • フレームワークは事前に合意されたモデルアーキテクチャを必要とせず、参加者が自らのモデルを独立してトレーニング・最適化できる。
  • プライベートに集約された教師モデルを用いることで、訓練データや中間モデル状態を暴露せずに知識移転が可能になる。
  • 本手法は暗号的仮定の下で証明可能に安全であり、共同学習環境における機密性とプライバシーを保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。