QUICK REVIEW

[論文レビュー] What Can We Learn Privately?

Shiva Prasad Kasiviswanathan, Homin K. Lee|arXiv (Cornell University)|Mar 6, 2008

Privacy-Preserving Technologies in Data参考文献 49被引用数 46

ひとこと要約

本稿は、微分プライバシーを用いたプライベートな機械学習の可能性を調査し、任意の多項式的サンプル複雑性を持つ概念クラスが、サンプルサイズに対数的増加のみを伴ってプライベートに学習可能であることを示している。また、ローカルプライベート学習と統計的クエリ（SQ）モデルの間のタイトな関係を確立し、ローカルアルゴリズムがSQ学習と同等であることを証明するとともに、インタラクティブと非インタラクティブなローカル学習の間で分離を示し、非インタラクティブ手法の根本的な限界を強調している。

ABSTRACT

Learning problems form an important category of computational tasks that generalizes many of the computations researchers apply to large real-life data sets. We ask: what concept classes can be learned privately, namely, by an algorithm whose output does not depend too heavily on any one input or specific training example? More precisely, we investigate learning algorithms that satisfy differential privacy, a notion that provides strong confidentiality guarantees in contexts where aggregate information is released about a database containing sensitive information about individuals. We demonstrate that, ignoring computational constraints, it is possible to privately agnostically learn any concept class using a sample size approximately logarithmic in the cardinality of the concept class. Therefore, almost anything learnable is learnable privately: specifically, if a concept class is learnable by a (non-private) algorithm with polynomial sample complexity and output size, then it can be learned privately using a polynomial number of samples. We also present a computationally efficient private PAC learner for the class of parity functions. Local (or randomized response) algorithms are a practical class of private algorithms that have received extensive investigation. We provide a precise characterization of local private learning algorithms. We show that a concept class is learnable by a local algorithm if and only if it is learnable in the statistical query (SQ) model. Finally, we present a separation between the power of interactive and noninteractive local learning algorithms.

研究の動機と目的

個人のデータポイントが出力に大きく影響しないように保証する、微分プライバシーを満たすアルゴリズムを用いた概念クラスの学習が可能かどうかを特定すること。
特に微分プライバシー制約下でのサンプル複雑性、計算時間、および相互作用のトレードオフを理解すること。
ローカル（ランダム化応答）プライベート学習アルゴリズムの能力を特徴付け、既知のモデル（統計的クエリ（SQ）モデルなど）と関連付けること。
インタラクティブと非インタラクティブなローカル学習の間の分離を調査し、非インタラクティブ手法の根本的限界を明らかにすること。
強いプライバシー保証のもとでも、プライベート学習が非プライベート学習とほぼ同等に強力であることを示すこと。

提案手法

形式的なプライバシー保証として微分プライバシーを用い、学習アルゴリズムの出力が任意の1つの訓練例に敏感でないことを保証する。
i.i.d. な例が分布から得られ、それらがターゲット概念によってラベル付けされる、サンプルベースの学習フレームワークを適用し、プライバシーはランダム化応答または類似のメカニズムによって強制する。
非プライベートなPACモデルにおいて多項式的サンプル複雑性を持つ任意の概念クラスが、概念クラスのサイズに対して対数的増加のみを伴うサンプルサイズでプライベートに学習可能であることを示している。
内積解析と正規直交関数展開を用いて、ローカルプライベート学習アルゴリズムを特徴づけ、それらが統計的クエリ（SQ）モデルでの学習と同等であることを証明している。
内積の集中に基づく確率的議論を用い、ほとんどのランダムなクエリに対して、オラクルの応答が隠れたパラメータに依存できないことを示し、感受性の高い変数を知らなくてもプライベートオラクルをシミュレート可能であることを可能にする。
ハイブリッド議論とクエリの和集合に関するボンドを用い、非インタラクティブなローカル学習がマスクされたパリティ問題に対して定数誤差を達成できないことを証明し、インタラクティブ手法とは分離されることを確立している。

実験結果

リサーチクエスチョン

RQ1非プライベートなPACモデルで学習可能なすべての概念クラスが、サンプルサイズのわずかな増加でプライベートに学習可能か？
RQ2ローカル（ランダム化応答）プライベート学習と統計的クエリ（SQ）モデルの関係は何か？
RQ3インタラクティブと非インタラクティブなローカル学習アルゴリズムの能力に、明示的な分離が存在するか？
RQ4パリティ関数のような難しい概念クラスについて、計算的に効率的なプライベート学習が達成可能か？
RQ5微分プライバシーは、感受性の高いデータが存在する状況での学習アルゴリズムのサンプル複雑性と計算効率にどのように影響するか？

主な発見

非プライベートなPACモデルにおいて多項式的サンプル複雑性を持つ任意の概念クラスは、概念クラスのサイズに対して対数的であるサンプルサイズを用いてプライベートに学習可能である。
パリティ関数のクラスに対して、計算的に効率的なプライベートPACラーナーが存在することを示しており、ランダム分類ノイズ下で難しいとされる問題に対してもプライベート学習が可能であることを示している。
ローカルプライベート学習アルゴリズムは、統計的クエリ（SQ）モデルのアルゴリズムとまったく同等の能力を持つ：概念クラスがローカルに学習可能であることは、かつそれがSQ-学習可能であることと同値である。
インタラクティブと非インタラクティブなローカル学習の間には明示的な分離が存在する：非インタラクティブなアルゴリズムは、マスクされたパリティのような特定のクラスを定数誤差で学習できないが、インタラクティブなものは可能である。
非インタラクティブなローカルラーナーがマスクされたパリティ問題で成功する確率は1から離れている。誤差確率の下界は少なくとも 1/2(1 - t/2^{d/3+2}) であり、非インタラクティブ手法の固有の限界を示している。
解析により、ほとんどのランダムなクエリに対して、オラクルの応答が隠れたパラメータに依存できないことが示され、1/2^{d/3} の許容誤差以内であれば、感受性の高いデータを知らなくてもプライベートオラクルをシミュレート可能であることが可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。