QUICK REVIEW

[논문 리뷰] Deep Unlearning via Randomized Conditionally Independent Hessians

Ronak Mehta, Sourav Pal|arXiv (Cornell University)|2022. 01. 01.

Stochastic Gradient Optimization Techniques인용 수 5

한 줄 요약

이 논문은 L-CODEC라는 무작위화된 조건부 통일성 계수를 사용하여, 전체 재학습 없이도 특정 훈련 샘플을 효과적으로 무시하도록 하는 최소한의 모델 파라미터 집합—특히 마르코프 블랭킷—을 식별하는 확장 가능한 딥 언러닝 방법을 제안한다. 큰 헤시안 행렬의 역행렬을 계산하는 것이 계산적으로 불가능한 점을 고려해, 이 방법은 ResNets, 트랜스포머, 얼굴 인식 시스템과 같은 대규모 비전 및 NLP 모델에서 근사적 언러닝을 가능하게 하며, 강력한 프라이버시 보장을(예: ϵ = 10⁻⁵) 제공하고 나머지 데이터에 대한 성능 저하를 최소화한다.

ABSTRACT

No description supplied

연구 동기 및 목표

고차원 헤시안 행렬의 역행렬 계산이 필요하여 대규모 딥 러닝 모델에서 헤시안 기반 언러닝이 계산적으로 불가능한 문제를 해결하기 위해.
전체 재학습이 불가능한 대규모 시각 및 NLP 모델(예: ResNets, 트랜스포머, 얼굴 인식 시스템)에서 실용적이고 근사적인 언러닝을 가능하게 하기 위해.
특정 훈련 샘플의 영향을 효과적으로 제거할 수 있는 최소한의 조건부 독립적 파라미터 부분집합(마르코프 블랭킷)을 식별하는 방법을 개발하기 위해.
최적화 기반 언러닝의 대안으로서 확장 가능하고 분포에 종속되지 않는 방법을 제공하여 행렬 역행렬 계산을 피하면서도 강력한 프라이버시 보장을(예: (ϵ, δ)-잊기) 유지하기 위해.

제안 방법

주어진 훈련 샘플과 가장 조건부로 의존하는 파라미터의 마르코프 블랭킷을 식별하기 위해 조건부 통일성 계수의 변종인 L-CODEC를 제안한다.
분포에 종속되지 않는 방식으로 입력의 변형을 사용하여 조건부 의존도를 추정하고, 언러닝에 적합한 파라미터 부분집합을 선별한다.
큰 계산 비용이 드는 전체 모델 헤시안 역행렬 계산을 피하기 위해, 식별된 마르코프 블랭킷에 대해 블록-좌표 업데이트 전략을 적용한다.
형태 w′ = ŵ + g(ŵ, z′)의 일회성 언러닝 업데이트를 적용하며, g는 L-CODEC로 식별된 파라미터 부분집합에서 유도된다. 이는 샘플을 재학습하는 것과 유사한 효과를 근사적으로 구현한다.
VGGFace와 같은 대규모 모델(25088×4096 레이어)에서 메모리 오버헤드를 줄이기 위해, L-FOCI의 '저비용' 변형을 사용하여 가장 영향력 있는 파라미터 슬라이스(예: 가장 큰 조건부 의존도)만 선택한다.
다양한 아키텍처(CNNs, ResNets, 트랜스포머)와 작업(얼굴 인식, 사람 재식별)에서 방법을 검증하며, 제거된 샘플과 잔류 데이터에 대한 성능 저하를 측정한다.

실험 결과

연구 질문

RQ1분포에 종속되지 않고 무작위화된 방법이, 전체 헤시안 역행렬 계산 없이도 특정 훈련 샘플을 효과적으로 무시할 수 있도록 최소한의 모델 파라미터 집합을 식별할 수 있는가?
RQ2L-CODEC는 대규모 딥 러닝 모델, 특히 비전 및 NLP 시스템에서 (ϵ, δ)-잊기 성능을 달성하기 위해 마르코프 블랭킷을 얼마나 정확히 식별할 수 있는가?
RQ3L-CODEC 기반 언러닝의 성능은 제거된 데이터와 잔류 데이터에 대한 정확도 저하 측면에서 전체 재학습 또는 다른 근사 언러닝 방법과 비교해 어떻게 되는가?
RQ4엄격한 프라이버시 제약(예: ϵ = 10⁻⁵) 하에서 모델 기능에 심각한 저하 없이 동시에 무려 몇 개의 샘플까지 언러닝할 수 있는가?

주요 결과

VGGFace를 사용한 얼굴 인식에서, 한 개의 신원에서 100장의 이미지를 제거했을 때 ϵ = 10⁻⁵ 조건에서 10회 이내로 해당 클래스의 정확도가 거의 0에 수렴했고, 잔류 정확도는 안정적으로 유지되었다.
ϵ = 0.1 조건에서, Market-1501 사람 재식별 모델에서 mAP 점수에 눈에 띄는 저하 없이 100개 이상의 제거가 가능했다.
MNIST 및 CIFAR-10 모델에서, 제거된 샘플에 대한 잔류 정확도는 급격히 감소했고, 기울기 노름도 크게 감소하여 효과적인 언러닝이 이루어졌음을 시사했다.
이 방법은 비전 모델에서 전체 클래스를 성공적으로 언러닝했으며, 제거된 샘플에 대해 활성화 맵에 상당한 변화가 있었고, 비제거 샘플은 안정성을 유지했다.
25088×4096 레이어를 가진 대규모 모델인 VGGFace에서도 '저비용' L-FOCI 변형(단일 슬라이스 선택)을 통해 전체 헤시안 역행렬 계산이 불가능한 메모리 제약 조건 속에서도 언러닝이 가능했다.
이 방법은 수억 개의 파라미터를 가진 모델로도 확장 가능했으며, 이전에는 계산적으로 불가능하다고 여겨졌던 환경에서도 근사적 언러닝을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.