QUICK REVIEW

[논문 리뷰] Remember What You Want to Forget: Algorithms for Machine Unlearning

Ayush Sekhari, Jayadev Acharya|arXiv (Cornell University)|2021. 03. 04.

Privacy-Preserving Technologies in Data참고 문헌 32인용 수 67

한 줄 요약

논문은 기계적 언링링의 일반화를 연구하며, 볼록 손실에 대한 언링링 알고리즘을 제시하여 최대 O(n/d^{1/4})개의 샘플을 삭제하면서도 좋은 테스트 성능을 유지하고, 차등 프라이버시와의 구분을 보인다.

ABSTRACT

We study the problem of unlearning datapoints from a learnt model. The learner first receives a dataset $S$ drawn i.i.d. from an unknown distribution, and outputs a model $\widehat{w}$ that performs well on unseen samples from the same distribution. However, at some point in the future, any training datapoint $z \in S$ can request to be unlearned, thus prompting the learner to modify its output model while still ensuring the same accuracy guarantees. We initiate a rigorous study of generalization in machine unlearning, where the goal is to perform well on previously unseen datapoints. Our focus is on both computational and storage complexity. For the setting of convex losses, we provide an unlearning algorithm that can unlearn up to $O(n/d^{1/4})$ samples, where $d$ is the problem dimension. In comparison, in general, differentially private learning (which implies unlearning) only guarantees deletion of $O(n/d^{1/2})$ samples. This demonstrates a novel separation between differential privacy and machine unlearning.

연구 동기 및 목표

일반화가 보존되는 한에서 학습 샘플을 얼마나 많이 언러닝할 수 있는지 조사한다.
실제 메모리 제약 하에서 저장 및 계산 효율이 높은 언링링을 탐구한다.
데이터 삭제 시 기계적 언링링과 차등 프라이버시 간의 구분을 보인다.
삭제 시점에 전체 학습 데이터에 접근할 필요가 없는 언링링 알고리즘을 개발한다.

제안 방법

언링링 목표를 제시하기 위해 모집단(테스트) 손실과 경험적 손실을 정의한다.
모든 데이터를 저장하지 않고도 삭제를 가능하게 하는 T(S) 통계가 있는 언링링 프레임워크를 도입한다.
차분: DP 기반 언링링은 제거 용량이 대략 n/d^{1/2}인 반면, 본 볼록 손실 방법은 대략 n/d^{1/4}를 달성한다는 구분을 증명한다.
강볼록 손실에 대해 해시안(Hessian) 정보를 사용하고 노이즈를 더해 DP와 유사한 보장을 더 작은 노이즈로 달성하는 언링링 알고리즘을 제공한다.
언링링 알고리즘이 O(d^2) 통계를 저장하고 O(d^{ω}) 시간에 실행된다는 것을 보여준다.
강볼록에서 볼록 손실로의 확장은 정규화를 사용한 환원으로 이루어진다.

실험 결과

연구 질문

RQ1좋은 테스트 손실 보장을 유지하면서 학습된 모델에서 얼마나 많은 샘플을 삭제할 수 있는가?
RQ2저장 및 계산 요건이 언링링 알고리즘 설계에 어떤 영향을 미치는가?
RQ3볼록 손실 설정에서 DP 기반 삭제 용량을 언링링이 능가할 수 있는가?
RQ4삭제 용량, 메모리 사용량, 계산 효율성 간의 무슨 트레이드오프가 있는가?
RQ5샘플 인지 업데이트를 기반으로 한 언링링이 DP-전용 접근법보다 더 나은 일반화를 가져오는가?

주요 결과

볼록(및 강볼록) 손실에 대해, 초과 위험이 0.01로 유지되면서 m ≥ c · n · sqrt(ε) / (d log(1/δ))^{1/4} 만큼의 샘플을 삭제할 수 있는 언링링 알고리즘이 존재한다.
제안된 언링링 방법은 해시안 기반 통계를 O(d^2) 메모리에 저장하고 O(d^{ω}) 시간에 언링링을 달성한다.
언링링에 추가되는 노이즈는 DP 노이즈보다 n^2/m^2에 비례하는 인자로 작아질 수 있어 더 높은 삭제 용량이 가능하다.
엄격한 구분이 입증된다: DP 기반 학습은 삭제 용량이 대략 n/d^{1/2}인 반면, 새로운 알고리즘은 볼록 손실에 대해 대략 n/d^{1/4}를 달성한다.
이 결과는 강볼록 손실과 볼록 손실 모두에 적용되며, 삭제 후 학습된 해가 거의 최적의 테스트 손실을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.