[논문 리뷰] Approximate Data Deletion from Machine Learning Models
프로젝티브 잔차 업데이트(PRU)를 도입하여 선형 및 로지스틱 모델에서 빠른 근사 데이터 삭제를 가능하게 하며 비용은 특징 차원 d에 선형이고 학습 크기 n과 무관, plus 삭제 품질을 평가하는 특징 주입 테스트(FIT).
Deleting data from a trained machine learning (ML) model is a critical task in many applications. For example, we may want to remove the influence of training points that might be out of date or outliers. Regulations such as EU's General Data Protection Regulation also stipulate that individuals can request to have their data deleted. The naive approach to data deletion is to retrain the ML model on the remaining data, but this is too time consuming. In this work, we propose a new approximate deletion method for linear and logistic models whose computational cost is linear in the the feature dimension $d$ and independent of the number of training data $n$. This is a significant gain over all existing methods, which all have superlinear time dependence on the dimension. We also develop a new feature-injection test to evaluate the thoroughness of data deletion from ML models.
연구 동기 및 목표
- 훈련 데이터 삭제의 필요성에 대한 동기 부여(예: 잊혀질 권리 및 프라이버시 규정 하의 모델)
- 데이터 크기가 아니라 특징 차원에 비례하는 비용으로 빠른 근사 삭제 방법 도입
- 민감 속성의 삭제를 정량화하는 새로운 평가 지표(특징 주입 테스트) 개발
- PRU가 그래디언트 기반 업데이트의 한 클래스 내에서 최적임을 보장하는 이론적 보증 제공
- 합성 및 실제 데이터셋을 이용한 선형 회귀 및 로지스틱 회귀 실험으로 접근 방식 검증
제안 방법
- 삭제된 점의 특징의 span에 정확한 매개변수 업데이트의 프로젝션을 계산하는 프로젝트형 잔차 업데이트(PRU) 도입
- 하트 행렬을 이용한 LKO(leave-k-out) 잔차 계산을 활용해 전체 재학습 없이 예측을 추정
- 삭제된 특징의 외적곱 합의 저차원 의사역행렬을 계산하여 자유도 O(k^2 d)인 PRU 업데이트를 얻음
- PRU가 삭제된 점의 span 내에서 가능한 최적의 업데이트를 달성함을 보임(정리 1)
- 로지스틱 회귀에 대해 유사한 효율 보장을 갖도록 반복 가중 최소제곱법과 빠른 뉴턴-스텝 근사(알고리즘 3)로 확장
- 특징 주입 테스트(FIT)를 제안하여 삭제 방법이 레이블과 완전히 상관된 합성 특징에 대한 지식을 얼마나 잘 제거하는지 정량화
실험 결과
연구 질문
- RQ1k개의 학습 포인트 배치를 다시 학습 없이 효율적으로 삭제할 수 있는가?
- RQ2PRU의 계산 비용 및 정확도 대 기존 방법(Exact, Influence, Newton 기반) 비교에서의 트레이드오프는 무엇인가?
- RQ3FEATURE INJECTION TEST(FIT)로 측정한 민감 속성 정보 제거 효과는 어떤가?
- RQ4PRU를 로지스틱 회귀에도 비슷한 효율 보장으로 확장할 수 있는가?
주요 결과
| 방법 | 점근 비용 |
|---|---|
| Exact | O(kd^2) |
| Influence | O(d^2) |
| Projective residual | O(k^2 d) |
- PRU는 업데이트를 O(k^2 d)의 비용으로 달성하며 n에 독립적이고, 삭제 데이터 차원에 대해 선형적이며 그래디언트 기반 업데이트 클래스에서 최적임.
- PRU는 대규모 삭제나 이상치 유사 삭제에서 영향 기반 방법보다 우수한 제거 성능과 도전적인 삭제 상황에서의 안정성이 더 좋음.
- 실험에서 PRU가 정확한 재학습보다 현저히 빠르며 특히 높은 d와 작은 k에서 최대 수천 배의 속도 향상을 보임.
- FIT는 PRU가 영향 방법에 비해 삽입된 매우 예측력이 높은 특징을 더 효과적으로 제거함을 보여 주어 프라이버시 중심의 이점을 강조.
- PRU는 로지스틱 회귀에도 O(k^2 d)와 유사한 복잡도로 일반화되어 빠른 뉴턴-스텝 근사를 통해 확장 가능
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.