QUICK REVIEW

[論文レビュー] Differentially Private Bayesian Linear Regression

Garrett Bernstein, Daniel Sheldon|arXiv (Cornell University)|Oct 29, 2019

Bayesian Methods and Mixture Models被引用数 24

ひとこと要約

本稿では、十分統計量に組み込まれたプライバシー由来のノイズを考慮するノイズに配慮したベイズ線形回帰手法を提案する。MCMCを用いて、ノイズが加えられた統計量から事後分布をサンプリングする。ナイーブな手法とは異なり、本手法は不確実性の正確な評価を維持し、合成データおよび実世界のデータにおいて、キャリブレーションとユーティリティの両面でベースラインを上回る性能を発揮する。

ABSTRACT

Linear regression is an important tool across many fields that work with sensitive human-sourced data. Significant prior work has focused on producing differentially private point estimates, which provide a privacy guarantee to individuals while still allowing modelers to draw insights from data by estimating regression coefficients. We investigate the problem of Bayesian linear regression, with the goal of computing posterior distributions that correctly quantify uncertainty given privately released statistics. We show that a naive approach that ignores the noise injected by the privacy mechanism does a poor job in realistic data settings. We then develop noise-aware methods that perform inference over the privacy mechanism and produce correct posteriors across a wide range of scenarios.

研究の動機と目的

プライバシーに起因するノイズを無視した場合に、ナイーブな差分プライバシー付きベイズ線形回帰がキャリブレーションに劣ることを是正すること。
十分統計量の摂動（SSP）に起因するノイズを適切に扱う推論手法の開発。
MCMC や変分推論のように、各イテレーションのプライバシー費用に依存しない、良好にキャリブレートされた事後分布の実現。
個々の個人を周辺化し、予測変数の分布に関するモーメントに基づく仮定を用いることで、計算コストの低減。
特に小規模から中規模のサンプル領域において、ナイーブなSSPに比べて優れたキャリブレーションとユーティリティを示すことを実証すること。

提案手法

プライバシーのメカニズムとして十分統計量の摂動（SSP）を用い、ベイズ推論の前に十分統計量にノイズを注入する。
ノイズが加えられた十分統計量を前提とした回帰係数の事後分布を推定するために、MCMCに基づくサンプリングを採用する。
2つの推論手法を導入する：1つは個人レベルの潜在的予測変数を含む（MCMC-Ind）、これは予測変数に完全な事前分布を必要とする。もう1つは個人を周辺化し、予測変数分布のモーメントのみを用いる（Gibbs-SS）。
パラメータと分散の共同事前分布を適用し、共役事前分布を用いることで、ノイズ下での効率的な事後更新を可能にする。
ノイズが加えられた十分統計量を含む事後モーメントを計算するためのNormProductサブルーチンを実装し、次元$d$に関して立方根の計算コストを発生させる。
Gibbsサンプリングを用いて、パラメータとノイズ成分を繰り返し更新し、プライバシー機構に起因する不確実性の適切な伝搬を保証する。

実験結果

リサーチクエスチョン

RQ1ナイーブなSSPに基づくベイズ推論は、現実的で有限のサンプルサイズの設定において、不確実性のキャリブレーションに失敗するか？
RQ2プライバシー機構の周囲でMCMCに基づく推論は、差分プライバシー付きベイズ線形回帰において、良好にキャリブレートされた事後分布を生成できるか？
RQ3ノイズに配慮した手法は、ナイーブなSSPに比べて、事後分布のキャリブレーションと予測的ユーティリティの両面でどのように性能を発揮するか？
RQ4個人を周辺化し、予測変数のモーメントに基づく仮定を用いることで、スケーラブルな推論を達成できるか？
RQ5データサイズとプライバシー予算の変化が、プライベート事後分布のキャリブレーションに与える影響は何か？

主な発見

ナイーブなSSPアプローチは、小規模から中規模のサンプルサイズにおいて、不確実性を系統的に低く評価し、キャリブレーションが不適切な事後分布を生じさせる。
Gibbs-SS-Noisyのようなノイズに配慮した手法は、実世界のデータにおいて、非プライベートのベイズ回帰とほぼ同等のキャリブレーションを達成し、50%および90%の信用区間がほぼ正確なカバレッジを示す。
Gibbs-SS手法は、母集団サイズに対して一定の実行時間を維持する。これに対してMCMC-Indは線形にスケーリングされ、$n=100$を超えると実行不能になる。
ノイズに配慮した事後分布と非プライベート事後分布との間のMMD（最大平均差）は、ナイーブ手法のそれと同等以上であり、優れたユーティリティを示している。
Gibbs-SS-Noisyは、明示的なデータ事前分布を必要とせず、実データにおいてナイーブなSSPに比べてより優れた予測不確実性の評価を達成する。
本手法の計算コストは、共分散構造における行列逆行列の計算に起因し、$O(d^6)$のスケーリングを示すが、$d \approx 100$の範囲では実行可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。