Skip to main content
QUICK REVIEW

[論文レビュー] Learning Privately from Multiparty Data

Jihun Hamm, Paul Cao|arXiv (Cornell University)|Feb 10, 2016
Privacy-Preserving Technologies in Data参考文献 20被引用数 59
ひとこと要約

本稿では、複数の参加者間でプライベートデータを共有せずに、局所的に学習されたモデルからグローバルに正確な微分プライバシー保護された分類器を訓練するための新規手法を提案する。補助の非ラベル付きデータに対してアンサンブルベースのソフトラベルを用い、クラス確率で重み付けされたリスクを最小化することで、一般化誤差バウンドが $O(\epsilon^{-2}M^{-2})$ に抑えられ、参加者数 $M$ が大きい場合に強いプライバシー保護と最小限の性能損失を実現する。

ABSTRACT

Learning a classifier from private data collected by multiple parties is an important problem that has many potential applications. How can we build an accurate and differentially private global classifier by combining locally-trained classifiers from different parties, without access to any party's private data? We propose to transfer the `knowledge' of the local classifier ensemble by first creating labeled data from auxiliary unlabeled data, and then train a global $ε$-differentially private classifier. We show that majority voting is too sensitive and therefore propose a new risk weighted by class probabilities estimated from the ensemble. Relative to a non-private solution, our private solution has a generalization error bounded by $O(ε^{-2}M^{-2})$ where $M$ is the number of parties. This allows strong privacy without performance loss when $M$ is large, such as in crowdsensing applications. We demonstrate the performance of our method with realistic tasks of activity recognition, network intrusion detection, and malicious URL detection.

研究の動機と目的

  • 複数の参加者が保有するプライベートデータを露呈せずに、個々のデータを公開せずにグローバル分類器の共同学習を可能にすること。
  • 数値でないモデルに不適切で、異種の分類器タイプに対応する柔軟性に欠けるパラメータ平均化の限界を解消すること。
  • 特に局所モデルが弱いか多数の場合に生じる、微分プライバシーによる性能劣化を軽減すること。
  • 個々の記録だけでなく、すべてのデータサンプルに対して強いプライバシー保証($\epsilon$-微分プライバシー)を達成すること。
  • 混合分類器タイプをサポートし、クラウドセンシングなどの大規模かつ分散型学習環境を想定したスケーラブルで柔軟なフレームワークを構築すること。

提案手法

  • 参加者からプライベートデータにアクセスせずに、局所的に学習された分類器を収集する。
  • 共有された補助の非ラベル付きデータに対して、局所分類器のアンサンブルを用いてソフトラベル(クラス確率)を生成し、生データを露呈せずに知識を転送する。
  • アンサンブルが推定するクラス確率で重み付けされた新たなリスク関数を定式化し、個々の分類器の投票に対する感度を低減する。
  • 最終的なグローバル分類器における $\epsilon$-微分プライバシーを保証するために、経験的リスク最小化プロセスに出力ノイズを適用する。
  • 信頼できるアグリゲータが局所モデルを収集し、ソフトラベルを生成し、微分プライバシー最適化を用いてプライベートなグローバルモデルを訓練する。
  • クラス確率推定の安定性を活用して、多数決投票よりも感度が低く、プライバシーと精度のトレードオフを改善するリスク関数を設計する。

実験結果

リサーチクエスチョン

  • RQ1プライベートデータを共有せずに、局所的に学習されたモデルからグローバルに正確で微分プライバシー保護された分類器を訓練できるか?
  • RQ2微分プライバシー下で感度を低減し、モデル性能を保持するために、アンサンブルベースのラベル生成における多数決投票をどのように改善できるか?
  • RQ3アンサンブル知識転送を用いて訓練された微分プライバシー保護型グローバル分類器の一般化誤差バウンドは何か?また、参加者数 $M$ にどのように依存するか?
  • RQ4提案手法は、アクティビティ認識、ネットワークインシデント検出、悪意あるURL検出といった実世界の応用において、強いプライバシー制約下でも高い精度を維持できるか?
  • RQ5クラス確率に基づく提案リスク重み付け方式は、伝統的な多数決投票に比べて、プライバシーと精度のトレードオフにおいて優れているか?

主な発見

  • 提案手法は、非プライベートな解法に対して一般化誤差バウンドが $O(\epsilon^{-2}M^{-2})$ に抑えられ、参加者数 $M$ が増加するに従い、最適性能に高速に収束することが示された。
  • 参加者数 $M=1000$、1参加者あたり6サンプルのアクティビティ認識タスクにおいて、ソフトラベル手法は $1/\epsilon = 0.1$ 時に76%のテスト精度を達成し、個々の分類器(47%)や多数決投票を上回った。
  • 参加者数 $M=20,000$ のネットワークインシデント検出タスクでは、ソフトラベル手法が非プライベートなバッチモデルに近い性能を維持し、$1/\epsilon \approx 10$ まで劣化が少なく、平均値および多数決投票手法を著しく上回った。
  • 1参加者あたり9サンプルの悪意あるURL検出タスクでも、ソフトラベル手法は依然として高い性能を示し、低データ環境下でも頑健であることを示した。
  • 多数決投票は個々の分類器の投票に対して極めて感受性が高く、特にプライバシー予算が低い場合に微分プライバシー下で効果を失うことが判明した。
  • アンサンブルのクラス確率に基づく提案リスク重み付けは、決定的多数決投票よりも安定しており、感度が低く、プライバシーと精度のトレードオフを改善する代替手段を提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。