QUICK REVIEW
[논문 리뷰] Deep Unlearning via Randomized Conditionally Independent Hessians
Ronak Mehta, Sourav Pal|arXiv (Cornell University)|2022. 01. 01.
Stochastic Gradient Optimization Techniques인용 수 5
한 줄 요약
이 논문은 L-CODEC라는 무작위화된 조건부 통일성 계수를 사용하여, 전체 재학습 없이도 특정 훈련 샘플을 효과적으로 무시하도록 하는 최소한의 모델 파라미터 집합—특히 마르코프 블랭킷—을 식별하는 확장 가능한 딥 언러닝 방법을 제안한다. 큰 헤시안 행렬의 역행렬을 계산하는 것이 계산적으로 불가능한 점을 고려해, 이 방법은 ResNets, 트랜스포머, 얼굴 인식 시스템과 같은 대규모 비전 및 NLP 모델에서 근사적 언러닝을 가능하게 하며, 강력한 프라이버시 보장을(예: ϵ = 10⁻⁵) 제공하고 나머지 데이터에 대한 성능 저하를 최소화한다.
ABSTRACT
No description supplied
연구 동기 및 목표
- 고차원 헤시안 행렬의 역행렬 계산이 필요하여 대규모 딥 러닝 모델에서 헤시안 기반 언러닝이 계산적으로 불가능한 문제를 해결하기 위해.
- 전체 재학습이 불가능한 대규모 시각 및 NLP 모델(예: ResNets, 트랜스포머, 얼굴 인식 시스템)에서 실용적이고 근사적인 언러닝을 가능하게 하기 위해.
- 특정 훈련 샘플의 영향을 효과적으로 제거할 수 있는 최소한의 조건부 독립적 파라미터 부분집합(마르코프 블랭킷)을 식별하는 방법을 개발하기 위해.
- 최적화 기반 언러닝의 대안으로서 확장 가능하고 분포에 종속되지 않는 방법을 제공하여 행렬 역행렬 계산을 피하면서도 강력한 프라이버시 보장을(예: (ϵ, δ)-잊기) 유지하기 위해.
제안 방법
- 주어진 훈련 샘플과 가장 조건부로 의존하는 파라미터의 마르코프 블랭킷을 식별하기 위해 조건부 통일성 계수의 변종인 L-CODEC를 제안한다.
- 분포에 종속되지 않는 방식으로 입력의 변형을 사용하여 조건부 의존도를 추정하고, 언러닝에 적합한 파라미터 부분집합을 선별한다.
- 큰 계산 비용이 드는 전체 모델 헤시안 역행렬 계산을 피하기 위해, 식별된 마르코프 블랭킷에 대해 블록-좌표 업데이트 전략을 적용한다.
- 형태 w′ = ŵ + g(ŵ, z′)의 일회성 언러닝 업데이트를 적용하며, g는 L-CODEC로 식별된 파라미터 부분집합에서 유도된다. 이는 샘플을 재학습하는 것과 유사한 효과를 근사적으로 구현한다.
- VGGFace와 같은 대규모 모델(25088×4096 레이어)에서 메모리 오버헤드를 줄이기 위해, L-FOCI의 '저비용' 변형을 사용하여 가장 영향력 있는 파라미터 슬라이스(예: 가장 큰 조건부 의존도)만 선택한다.
- 다양한 아키텍처(CNNs, ResNets, 트랜스포머)와 작업(얼굴 인식, 사람 재식별)에서 방법을 검증하며, 제거된 샘플과 잔류 데이터에 대한 성능 저하를 측정한다.
실험 결과
연구 질문
- RQ1분포에 종속되지 않고 무작위화된 방법이, 전체 헤시안 역행렬 계산 없이도 특정 훈련 샘플을 효과적으로 무시할 수 있도록 최소한의 모델 파라미터 집합을 식별할 수 있는가?
- RQ2L-CODEC는 대규모 딥 러닝 모델, 특히 비전 및 NLP 시스템에서 (ϵ, δ)-잊기 성능을 달성하기 위해 마르코프 블랭킷을 얼마나 정확히 식별할 수 있는가?
- RQ3L-CODEC 기반 언러닝의 성능은 제거된 데이터와 잔류 데이터에 대한 정확도 저하 측면에서 전체 재학습 또는 다른 근사 언러닝 방법과 비교해 어떻게 되는가?
- RQ4엄격한 프라이버시 제약(예: ϵ = 10⁻⁵) 하에서 모델 기능에 심각한 저하 없이 동시에 무려 몇 개의 샘플까지 언러닝할 수 있는가?
주요 결과
- VGGFace를 사용한 얼굴 인식에서, 한 개의 신원에서 100장의 이미지를 제거했을 때 ϵ = 10⁻⁵ 조건에서 10회 이내로 해당 클래스의 정확도가 거의 0에 수렴했고, 잔류 정확도는 안정적으로 유지되었다.
- ϵ = 0.1 조건에서, Market-1501 사람 재식별 모델에서 mAP 점수에 눈에 띄는 저하 없이 100개 이상의 제거가 가능했다.
- MNIST 및 CIFAR-10 모델에서, 제거된 샘플에 대한 잔류 정확도는 급격히 감소했고, 기울기 노름도 크게 감소하여 효과적인 언러닝이 이루어졌음을 시사했다.
- 이 방법은 비전 모델에서 전체 클래스를 성공적으로 언러닝했으며, 제거된 샘플에 대해 활성화 맵에 상당한 변화가 있었고, 비제거 샘플은 안정성을 유지했다.
- 25088×4096 레이어를 가진 대규모 모델인 VGGFace에서도 '저비용' L-FOCI 변형(단일 슬라이스 선택)을 통해 전체 헤시안 역행렬 계산이 불가능한 메모리 제약 조건 속에서도 언러닝이 가능했다.
- 이 방법은 수억 개의 파라미터를 가진 모델로도 확장 가능했으며, 이전에는 계산적으로 불가능하다고 여겨졌던 환경에서도 근사적 언러닝을 가능하게 했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.