Skip to main content
QUICK REVIEW

[論文レビュー] Variational Bayesian Unlearning

Quoc Phong Nguyen, Bryan Kian Hsiang Low|arXiv (Cornell University)|Oct 24, 2020
Gaussian Processes and Bayesian Inference参考文献 31被引用数 37
ひとこと要約

本論文は、データを消去した後の未学習ポスターiorと再学習後のポスターiorの間の KL 発散を最小化することで、近似ベイズ的アンラーニングを定式化し、変分推論内の evidence upper bound (EUBO) を介してこれを達成し、近似ポスターの扱いに対する2つのトリックを提案する。

ABSTRACT

This paper studies the problem of approximately unlearning a Bayesian model from a small subset of the training data to be erased. We frame this problem as one of minimizing the Kullback-Leibler divergence between the approximate posterior belief of model parameters after directly unlearning from erased data vs. the exact posterior belief from retraining with remaining data. Using the variational inference (VI) framework, we show that it is equivalent to minimizing an evidence upper bound which trades off between fully unlearning from erased data vs. not entirely forgetting the posterior belief given the full data (i.e., including the remaining data); the latter prevents catastrophic unlearning that can render the model useless. In model training with VI, only an approximate (instead of exact) posterior belief given the full data can be obtained, which makes unlearning even more challenging. We propose two novel tricks to tackle this challenge. We empirically demonstrate our unlearning methods on Bayesian models such as sparse Gaussian process and logistic regression using synthetic and real-world datasets.

研究の動機と目的

  • Bayesian モデルにおけるデータプライバシーと悪意のあるデータシナリオ下で、効率的で近似的なアンラーニングの必要性を動機づける。
  • erasedデータと残りデータでの再学習との間の KL 発散最小化としてアンラーニングを位置づける。
  • 近似ポスターしか利用できない場合に、VI ベースの手順を開発してアンラーニングを実現する。
  • exactポスターが利用できない場合のアンラーニングを安定化させるための2つのトリックを提案する:調整後尤度と逆 KL。
  • さまざまな後方分布モデルを含むベイズモデル(スパース GP など)とロジスティック回帰で方法を実証する。

提案手法

  • exact Bayesian unlearning を、erased data De の下で p(theta|D) から p(theta|Dr) を回復することとして定式化する。
  • KL[q_u(theta|Dr)||p(theta|Dr)] を最小化することは、ebvidence の上界 U を最小化することと同等であり、消去されたデータのアンラーニングと全データからの情報保持のトレードオフを明確化する。
  • 近似ポスターを扱うための2つのトリックを導入する: (i) 調整後尤度 p_adj(De|theta; lambda) を用いて q(theta|D) の低い領域を弱める、(ii) 逆 KL 発散を用いて調整後尤度なしで自然にアンラーニングを制限する。
  • tilde p(theta|Dr) を q(theta|D)/p(De|theta) に比例させて p(theta|Dr) を推定し、対応する EUBO を最小化する。
  • 柔軟な表現(正規化フローなど)を用いて近似ポスター q(theta|D) をモデル化し、VI を適用して ELBO またはその VI ベースの変種を最大化する。
  • スパース Gaussian process 分類とロジスティック回帰で実験を行い、ポスターの後方分布を正規化フローで表現し、予測分布間の KL 発散を評価する。

実験結果

リサーチクエスチョン

  • RQ1近似的な VI からのポスターしか利用できない場合に、近似ベイズアンラーニングを効率的に実行するにはどうすればよいか?
  • RQ2KL ベースのアンラーニング(EUBO を介して)は、 erased データの影響を排除しつつ壊滅的なアンラーニングを回避できるか?
  • RQ3調整後尤度と逆 KL は近似ポスターの下で堅牢なアンラーニングを提供するか?
  • RQ4アンラーニング手法は、異なるベイズモデル(例:スパース GP、ロジスティック回帰)と後方表現(例:Gaussian、正規化フロー)でどのように性能を発揮するか?

主な発見

  • EUBO の最小化は、未学習後と全データ後のポスター間の KL を最小化することに等しく、アンラーニングの原理的な目的を可能にする。
  • 正確なポスターが利用できない場合に、調整後尤度と逆 KL は堅牢性を向上させ、確率の高い領域にアンラーニングを焦点化する。
  • アンラーニングの性能は lambda の選択とポスターモデルに依存する;過度に調整が強い(小さな lambda)と一部の設定で壊滅的なアンラーニングを引き起こす可能性があり、逆 KL はより安定する傾向がある。
  • 実験は、EUBO を用いたアンラーニングが erased データ領域で予測分布の発散を低減しつつ、残りデータでの性能を維持できることを示しており、スパース GP の合成 Moon データとロジスティック回帰による banknote 認証で確認された。
  • 正規化フローは、Gaussian近似が失敗する複雑なポスターに対して効果的なアンラーニングを可能にし、特に VI ベースの表現と相性が良い。
  • 一貫して、アンラーニング戦略は erasure 後のポスター/予測分布間の KL 発散を、基準の全データ予測より小さくでき、近似的なアンラーニングの有効性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。