Skip to main content
QUICK REVIEW

[論文レビュー] Remember What You Want to Forget: Algorithms for Machine Unlearning

Ayush Sekhari, Jayadev Acharya|arXiv (Cornell University)|Mar 4, 2021
Privacy-Preserving Technologies in Data参考文献 32被引用数 67
ひとこと要約

本論文は機械的忘却(machine unlearning)における一般化を研究し、凸損失の忘却アルゴリズムを導入して、良好なテスト性能を保ちながら最大で O(n/d^{1/4}) 個のサンプルを削除し、差分プライバシーとの分離を示す。

ABSTRACT

We study the problem of unlearning datapoints from a learnt model. The learner first receives a dataset $S$ drawn i.i.d. from an unknown distribution, and outputs a model $\widehat{w}$ that performs well on unseen samples from the same distribution. However, at some point in the future, any training datapoint $z \in S$ can request to be unlearned, thus prompting the learner to modify its output model while still ensuring the same accuracy guarantees. We initiate a rigorous study of generalization in machine unlearning, where the goal is to perform well on previously unseen datapoints. Our focus is on both computational and storage complexity. For the setting of convex losses, we provide an unlearning algorithm that can unlearn up to $O(n/d^{1/4})$ samples, where $d$ is the problem dimension. In comparison, in general, differentially private learning (which implies unlearning) only guarantees deletion of $O(n/d^{1/2})$ samples. This demonstrates a novel separation between differential privacy and machine unlearning.

研究の動機と目的

  • 未知データへの一般化を維持しつつ、学習データのうちいくつを忘却できるかを調査する。
  • 実用的なメモリ制約の下で、ストレージおよび計算効率の高い忘却を探る。
  • データ削除時に機械的忘却と差分プライバシーとの分離を示す。
  • 削除時に全ての訓練データへアクセスすることを要しない忘却アルゴリズムの開発。

提案手法

  • 忘却対象を動機づけるために、母集団(テスト)損失と経験的損失を定義する。
  • 全データを保存せずに削除を可能にする T(S) 統計量を用いた忘却フレームワークを導入する。
  • 分離を証明する: DPベースの忘却は削除容量が約 n/d^{1/2}、一方我々の凸損失法は約 n/d^{1/4} を達成する。
  • 強凸損失の忘却アルゴリズムを提供し、ヘシアン情報とノイズを用いて、より小さなノイズでDP様の保証を達成する。
  • 忘却アルゴリズムは O(d^2) の統計を保存し、計算時間は O(d^{ω}) であることを示す。
  • 正則化を用いた還元により、強凸から凸損失への拡張。

実験結果

リサーチクエスチョン

  • RQ1良好なテスト損失保証を維持しつつ、訓練済みモデルからいくつのサンプルを削除できるか?
  • RQ2ストレージと計算要件が忘却アルゴリズムの設計にどう影響するか?
  • RQ3凸損失設定において、忘却は DPベースの削除容量を上回れるか?
  • RQ4削除容量、メモリ使用、および計算効率の間のトレードオフは何か?
  • RQ5サンプル認識的な更新に基づく忘却は、DPのみのアプローチより一般化性能が向上するか?

主な発見

  • 凸損失(および強凸損失)に対して、余剰リスクが0.01を維持しつつ、削除できるサンプル数は m ≥ c · n · sqrt(ε) / (d log(1/δ))^{1/4} までの忘却アルゴリズムが存在する。
  • 提案手法はヘシアンベースの統計を O(d^2) のメモリで保存し、時間 O(d^{ω}) で忘却を達成する。
  • 忘却のために加えるノイズは DP ノイズより、n^2/m^2 に比例する因子だけ小さくでき、より高い削除容量を可能にする。
  • 厳密な分離を示す: DPベースの学習は削除容量が約 n/d^{1/2}、新しいアルゴリズムは凸損失で約 n/d^{1/4} を達成する。
  • 結果は強凸損失と凸損失の両方に適用され、削除後も学習済み解がほぼ最適なテスト損失を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。