QUICK REVIEW

[論文レビュー] Approximate Data Deletion from Machine Learning Models

Zachary Izzo, Mary Anne Smart|arXiv (Cornell University)|Feb 24, 2020

Privacy-Preserving Technologies in Data参考文献 22被引用数 38

ひとこと要約

プロジェクティブ残差更新（PRU）を提案–線形およびロジスティックモデルでの高速近似データ削除。特徴次元 d に線形、訓練サイズ n には依存しないコスト。削除品質を評価する新しい特徴注入テスト（FIT）を追加。

ABSTRACT

Deleting data from a trained machine learning (ML) model is a critical task in many applications. For example, we may want to remove the influence of training points that might be out of date or outliers. Regulations such as EU's General Data Protection Regulation also stipulate that individuals can request to have their data deleted. The naive approach to data deletion is to retrain the ML model on the remaining data, but this is too time consuming. In this work, we propose a new approximate deletion method for linear and logistic models whose computational cost is linear in the the feature dimension $d$ and independent of the number of training data $n$. This is a significant gain over all existing methods, which all have superlinear time dependence on the dimension. We also develop a new feature-injection test to evaluate the thoroughness of data deletion from ML models.

研究の動機と目的

プライバシー規制（例: 忘れられる権利）下で訓練済みMLモデルから訓練データを削除する必要性を動機づける。
データサイズではなく特徴次元にスケールする高速な近似削除手法を導入する。
削除された機微属性の削除を定量化する新しい評価指標（特徴注入テスト）を開発する。
PRUが勾配ベースの更新のクラス内で最適であることを理論的保証として示す。
合成データと実データの線形回帰とロジスティック回帰の実験でアプローチを検証する。

提案手法

削除点の特徴の張リ内に射影された正確なパラメータ更新の射影を計算するプロジェクティブ残差更新（PRU）を導入する。
帽子行列を用いたleave-k-out残差計算（LKO）を活用し、完全な再訓練を行わずに予測を推定する。
削除された特徴の外積の和の低次元偽逆行列を計算し、コスト O(k^2 d) でPRU更新を得る。
PRUが削除点の span 内で可能な最高の更新を達成することを証明する（定理1）。
Iterative Reweighted Least Squares および高速ニュートン近似（アルゴリズム3）を用いてPRUをロジスティック回帰へ拡張する。
特徴注入テスト（FIT）を提案し、ラベルと完全に相関する合成特徴の知識削除の程度を定量化する。

実験結果

リサーチクエスチョン

RQ1k 個の訓練データのバッチを再訓練なしで効率的に削除できるか？
RQ2PRUの計算コストと精度のトレードオフは、既存手法（Exact, Influence, Newton-based）とどうなるか？
RQ3FIT で測定される敏感属性に関する情報の削除はどの程度PRUで達成されるか？
RQ4PRUは同様の効率保証を持つロジスティック回帰へ拡張可能か？

主な発見

手法	漸近コスト
Exact	O(kd^2)
Influence	O(d^2)
Projective residual	O(k^2 d)

PRUはコスト O(k^2 d) の更新を達成し、n には依存せず、削除データ次元には線形、勾配ベース更新のクラスで最適である。
PRUは大規模削除や外れ値のような削除、疎なデータ領域で影響ベースの手法より優れており、難しい削除下での安定性が高い。
実験ではPRUは正確な再訓練よりはるかに高速で、特に d が高く k が小さい場合（例として特定設定で最大3000倍の速度向上）で顕著。
特徴注入テスト（FIT）は、PRUが影響法よりも挿入された高予測力を持つ特徴の削除をより効果的に行い、プライバシー指向の利点を強調する。
PRUはニュートン法近似による高速手法で同様の O(k^2 d) 複雑性へ拡張可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。