QUICK REVIEW

[논문 리뷰] Making AI Forget You: Data Deletion in Machine Learning

Antonio Ginart, Melody Y. Guan|arXiv (Cornell University)|2019. 07. 11.

Privacy-Preserving Technologies in Data참고 문헌 85인용 수 71

한 줄 요약

이 논문은 ML에서 데이터 삭제를 형식화하고 이론적 보장과 표준 재학습 대비 강력한 경험적 속도 향상을 보이는 두 가지 삭제 효율적 k-평균 알고리즘(Q-kmeans, DC-kmeans)을 제안하며 클러스터링 품질을 유지한다.

ABSTRACT

Intense recent discussions have focused on how to provide individuals with control over when their data can and cannot be used --- the EU's Right To Be Forgotten regulation is an example of this effort. In this paper we initiate a framework studying what to do when it is no longer permissible to deploy models derivative from specific user data. In particular, we formulate the problem of efficiently deleting individual data points from trained machine learning models. For many standard ML models, the only way to completely remove an individual's data is to retrain the whole model from scratch on the remaining data, which is often not computationally practical. We investigate algorithmic principles that enable efficient data deletion in ML. For the specific setting of k-means clustering, we propose two provably efficient deletion algorithms which achieve an average of over 100X improvement in deletion efficiency across 6 datasets, while producing clusters of comparable statistical quality to a canonical k-means++ baseline.

연구 동기 및 목표

훈련된 ML 모델에서 개별 데이터 포인트를 삭제하는 문제를 형식화한다.
온라인/삭제 설정에서 삭제 효율성을 정의하고 하한을 정립한다.
이론적 보장을 갖춘 k-평균 클러스터링을 위한 삭제 효율 알고리즘을 개발한다.
다양한 데이터셋에 걸쳐 삭제 효율성과 클러스터링 품질을 경험적으로 평가한다.
삭제 효율 학습 시스템을 위한 설계 도구상자와 원칙을 제공한다.

제안 방법

데이터 삭제를 삭제된 포인트 없이 학습된 모델과 분포상으로 구별 불가능한(동일 분포의) 모델을 생산하는 것으로 정의한다.
두 가지 삭제 효율적 k-means 변형: Quantized k-means (Q-kmeans)와 Divide-and-Conquer k-means (DC-kmeans)를 제안한다.
Q-kmeans: 중심점을 epsilon-격자로 양자화하고, 상태를 메모이즈하며, 균형 보정을 적용하고, 불안정한 반복에서 조기 종료를 사용한다.
DC-kmeans: w-ary 트리를 구성하고, 부분 문제를 k-means++로 해결한 뒤 트리 위에서 중심점을 병합하여 국부적 삭제를 가능하게 한다.
삭제 시간 복잡도를 분석하고 특정 조건에서 Q-kmeans 삭제의 기대 시간이 O(m^2 d^{5/2}/epsilon)임을 보이며, DC-kmeans 삭제 경계에 대한 보정/증명 스케치를 제공한다.
삭제 효율 시스템을 위한 네 가지 설계 원칙(Linearity, Laziness, Modularity, Quantization)을 제시한다.

실험 결과

연구 질문

RQ1계산적으로 의미 있게 ML 모델에서 데이터 삭제를 어떻게 정의하고 측정할 수 있는가?
RQ2모델 품질을 유지하면서 처음부터 재학습하지 않고도 개별 학습 데이터를 효율적으로 삭제할 수 있는가?
RQ3k-means 클러스터링을 위한 어떤 삭제 효율 전략을 개발할 수 있으며, 그 이론적 보장은 무엇인가?
RQ4다양한 데이터셋에 걸친 속도와 클러스터링 품질 측면에서 삭제 효율 방법은 경험적으로 어떻게 수행되는가?
RQ5삭제 효율 ML 시스템 설계를 위한 일반적인 엔지니어링 원칙은 무엇인가?

주요 결과

삭제 효율적 k-means 변형은 표준 Lloyd 알고리즘(초기화에 k-means++ 사용) 대비 평균적 amortized 런타임에서 100배 이상 큰 속도 향상을 달성한다.
Q-kmeans는 중심점 양자화와 상태 메모이제이션을 통해 빠른 삭제를 가능하게 하면서도 경쟁력 있는 클러스터링 품질을 유지한다; 그 삭제 시간은 기대값에서 O(m^2 d^{5/2}/epsilon)이다.
DC-kmeans는 깊이 1의 w-ary 트리를 이용한 또 다른 삭제 전략을 제공하며, 적절한 매개변수 선택 시 기대 삭제 시간은 O(m max{n^{rho}, n^{1−rho}} d)이다.
여섯 개 데이터셋에서 두 방법 모두 기본값 대비 손실(loss), 실루엣(silhouette), NMI 등 주요 지표에서 통계적으로 유사한 결과를 보이면서도 삭제 비용을 대폭 감소시켰다.
저자들은 상환적(amortized) 삭제 효율 경계를 제시한다: Q-kmeans는 alpha-deletion 효율이며 alpha <= (1 - beta)/2 이고 epsilon ~ n^{-beta}일 때; DC-kmeans는 alpha < 1 - max{1 - rho, rho} 이고 트리 너비 w ~ n^{rho}일 때 alpha-deletion 효율이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.