[論文レビュー] Differentially Private Release and Learning of Threshold Functions
この論文は、ドメインサイズに応じて増加する、閾値関数の微分プライバシー的リリースにおける最初の非自明な下界を確立し、それが Ω(log* |X|) 以上でなければならないことを示している。また、内部点問題のための新しい再帰的構成を導入し、それを利用して不可能性結果を証明するとともに、2^(1+o(1)) log* |X| のサンプル複雑性を達成する新しいアルゴリズムを提示している。これにより、従来の境界を改善し、上界とのギャップを埋めている。
We initiate the study of the randomness complexity of differential privacy, i.e., how many random bits an algorithm needs in order to generate accurate differentially private releases. As a test case, we focus on the task of releasing the results of d counting queries, or equivalently all one-way marginals on a d-dimensional dataset with boolean attributes. While standard differentially private mechanisms for this task have randomness complexity that grows linearly with d, we show that, surprisingly, only log₂ d+O(1) random bits (in expectation) suffice to achieve an error that depends polynomially on d (and is independent of the size n of the dataset), and furthermore this is possible with pure, unbounded differential privacy and privacy-loss parameter ε = 1/poly(d). Conversely, we show that at least log₂ d-O(1) random bits are also necessary for nontrivial accuracy, even with approximate, bounded DP, provided the privacy-loss parameters satisfy ε,δ ≤ 1/poly(d). We obtain our results by establishing a close connection between the randomness complexity of differentially private mechanisms and the geometric notion of "deterministic rounding schemes" recently introduced and studied by Vander Woude et al. (2022, 2023).
研究の動機と目的
- 有限および無限のドメインにおける閾値関数の微分プライバシー的リリースのためのタイトなサンプル複雑性境界を確立すること。
- 自然数 ℕ や [0,1] のような無限のデータユニバース上での閾値関数リリースが可能かどうかという未解決の問題を解明すること。
- 特に非有界ドメイン上の問題に対して、微分プライバシーにおける不可能性結果を証明するための新しい技術を開発すること。
- 閾値関数リリースおよび学習のサンプル複雑性の上界を改善し、従来の 8(1+o(1)) log* |X| から 2^(1+o(1)) log* |X| に低減すること。
- 適切なPAC学習およびコルモゴロフ距離に基づく分布学習に結果を拡張し、プライバシーありとなしのサンプル複雑性の間に差が生じることを示すこと。
提案手法
- 内部点問題の緩和版としての「支配されない点問題」を導入し、無限ドメインにおける不可能性を証明する。
- 内部点問題のサンプル複雑性を界磁する再帰的構成を開発し、T-有界メカニズムとドメインの切断を用いて有限集合 Xd に還元する。
- 閾値関数リリースおよび学習を内部点問題に還元し、下界の転送を可能にする。
- 仮説集合と微分プライバシー制約に基づくパッキングの議論を用いて、可算な仮説クラスを持つ点関数の純粋微分プライバシーにおける不可能性を証明する。
- ファングプリントコードと分布解析を用いて、任意の微分プライバシー的メカニズムが高誤差を強いられるような困難な入力分布を構築する。
- 再帰的かつ階層的なメカニズムを実装し、適応的ノイズとドメイン分割を用いて、改善されたサンプル複雑性を達成する閾値関数リリースを実現する。
実験結果
リサーチクエスチョン
- RQ1自然数 ℕ や [0,1] のような無限のデータユニバース上での閾値関数の微分プライバシー的リリースは可能か?
- RQ2微分プライバシー的リリースに必要な正確なサンプル複雑性は何か? これは |X| にどのように依存するか?
- RQ3従来の上界 8(1+o(1)) log* |X| よりも、プライベートな閾値関数学習のサンプル複雑性を改善できるか?
- RQ4(ε,δ)-微分プライバシー下での適切なPAC学習において、閾値関数の学習に必要なサンプル複雑性はドメインサイズに応じて増加する必要があるか?
- RQ5純粋ε-微分プライバシー下で、可算な仮説クラスを用いて点関数をプライベートに学習することは可能か?
主な発見
- 微分プライバシー的リリースにおける閾値関数のサンプル複雑性は、少なくとも Ω(log* |X|) 以上であり、これは自然数 ℕ や [0,1] のような無限ドメイン上では不可能であることを示している。
- 本論文は、サンプル複雑性 2^(1+o(1)) log* |X| を達成する新しい微分プライバシー的アルゴリズムを提示しており、従来の上界 8(1+o(1)) log* |X| よりも改善されている。
- 閾値関数リリースの下界は、初めてとして、(ε,δ)-微分プライバシー下での適切な概念クラスの学習と非プライバシー学習の間でサンプル複雑性に差が生じることを示している。
- ℓ次元における適切な閾値関数の学習では、サンプル複雑性の下界が n ≥Ω(ℓ · log* |X|) に拡張される。
- 本論文は、無限ドメイン上の点関数が、可算な仮説クラスを用いた純粋ε-微分プライバシーでは学習不可能であることを証明し、未解決の問題を解決している。
- 結果は、コルモゴロフ距離に基づくプライベートな分布学習に拡張され、微分プライバシー下ではサンプル複雑性が |X| に応じて増加しなければならないことが示されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。