QUICK REVIEW

[論文レビュー] Differential Privacy and Machine Learning: a Survey and Review

Zhanglong Ji, Zachary C. Lipton|arXiv (Cornell University)|Dec 24, 2014

Privacy-Preserving Technologies in Data参考文献 56被引用数 193

ひとこと要約

この論文は、プライバシーと有効性のバランスをとる学習モデルにおいて、微分プライバシーを用いた機械学習のさまざまな手法を調査・レビューしている。ノイズ追加、モデル変更、公開データの統合、反復的ノイズなど、プライベートな学習のための技術を提示し、正則化モデルにおいてノイズスケーリングが O(1/n) であるような条件下では、プライバシーを有効性に影響を与えることなく達成できることを示している。

ABSTRACT

The objective of machine learning is to extract useful information from data, while privacy is preserved by concealing information. Thus it seems hard to reconcile these competing interests. However, they frequently must be balanced when mining sensitive data. For example, medical research represents an important application where it is necessary both to extract useful information and protect patient privacy. One way to resolve the conflict is to extract general characteristics of whole populations without disclosing the private information of individuals. In this paper, we consider differential privacy, one of the most popular and powerful definitions of privacy. We explore the interplay between machine learning and differential privacy, namely privacy-preserving machine learning algorithms and learning-based data release mechanisms. We also describe some theoretical results that address what can be learned differentially privately and upper bounds of loss functions for differentially private algorithms. Finally, we present some open questions, including how to incorporate public data, how to deal with missing data in private datasets, and whether, as the number of observed samples grows arbitrarily large, differentially private machine learning algorithms can be achieved at no cost to utility as compared to corresponding non-differentially private algorithms.

研究の動機と目的

データから有用な情報を抽出するという目的と、個人のプライバシーを保護するという目的の対立を是するため。
感度の高いデータセットに対するバックグラウンドアタックを防ぐために、従来の匿名化やk-匿名性の限界を克服するため。
分類、回帰、クラスタリング、次元削減といった機械学習のコアタスクに微分プライバシーを統合する方法を調査するため。
データセットのサイズが増大するに従って、微分プライバシーが有効性にコストをかけずに達成可能かどうかを検討するため。
欠損データの処理、公開データの利用、時系列的または構造的医療記録のような非リレーショナルデータに対するプライベートメカニズムの設計といった、未解決の課題を検討するため。

提案手法

個人のデータ変更に対する感度が限定的であるという微分プライバシーの定義を用い、モデル出力が個人情報を露呈しないことを保証する。
グローバル感度とラプラス機構を用いて、クエリ出力にノイズを追加することで、プライバシーを確保しつつ有効性を維持する。
高感度の導出値（例：条件付き確率）ではなく、低感度の値（例：ナイーブベイズにおけるカウント）にノイズを追加することで、ノイズの大きさを低減する。
モデル変換（例：カーネルSVMを線形SVMに変換）を導入することで、感度を低減し、プライバシーと有効性のトレードオフを改善する。
同じ集団から抽出された公開データセットを活用することで、プライベート学習メカニズムにおけるノイズを低減し、有効性を向上させる。
最適化経路における反復的ノイズ追加を検討し、最終モデルの感度よりも各ステップの感度が低い場合に、MCMCなどの手法を用いたプライベート学習が可能になる。

実験結果

リサーチクエスチョン

RQ1データセットのサイズが増大するに従って、高い有効性を維持できる微分プライバシー機械学習アルゴリズムを設計できるか？
RQ2どのような条件下で、微分プライバシーが有効性にコストをかけずに達成可能か、すなわちプライバシー用ノイズが標本ノイズよりも漸近的に小さくなるか？
RQ3公開データをどのように効果的に活用することで、微分プライバシー学習メカニズムの性能を向上させられるか？
RQ4不完全なデータ、時系列的データ、医療記録のような構造的データに対して微分プライバシーを適用する際の課題は何か？
RQ5微分プライバシーとモデル一般化の目的は、機械学習においてどの程度調和可能か？

主な発見

正則化ロジスティック回帰や線形SVMでは、ノイズスケーリングが O(1/n) であるため、プライバシーを達成でき、これは標本のランダムネスに起因する O(1/√n) のノイズよりも漸近的に小さくなるため、有効性の観点から「無料のプライバシー」と見なせる。
文献[6]のメカニズムは、特定のモデルに対して無料の ϵ-微分プライバシーを達成しており、プライバシー用ノイズが非プライベートベースラインと比較して性能を低下させない。
公開データの活用は、文献[28, 29]で示されたように、プライベートデータ処理における高ノイズの必要性を低減することで、微分プライバシーメカニズムの性能を向上させることができる。
高感度の導出値（例：条件付き確率）ではなく、低感度の成分（例：原始的なカウント）にノイズを追加することで、ノイズの大きさを顕著に低減し、有効性を改善できる。
最適化経路における反復的ノイズ追加は、最終モデルの感度よりも低い総感度を達成でき、MCMCに基づくアルゴリズムを用いたプライベート学習を可能にする。
微分プライバシーとモデル一般化は調和可能である：両者とも個々のサンプルへの過剰適合を減らすという点で共通の目的を持ち、プライバシーとロバストネスの自然な統合を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。