[논문 리뷰] Adversarial Unlearning of Backdoors via Implicit Hypergradient
본 논문은 I-BAU, 즉 Implicit Backdoor Adversarial Unlearning 알고리즘을 도입하여 암묵적 하이퍼그래디언트를 이용해 minimax backdoor-removal 문제를 해결하고, 수렴 및 일반화 보장과 다양한 공격에 걸친 강력한 실험적 결과를 제시한다.
We propose a minimax formulation for removing backdoors from a given poisoned model based on a small set of clean data. This formulation encompasses much of prior work on backdoor removal. We propose the Implicit Bacdoor Adversarial Unlearning (I-BAU) algorithm to solve the minimax. Unlike previous work, which breaks down the minimax into separate inner and outer problems, our algorithm utilizes the implicit hypergradient to account for the interdependence between inner and outer optimization. We theoretically analyze its convergence and the generalizability of the robustness gained by solving minimax on clean data to unseen test data. In our evaluation, we compare I-BAU with six state-of-art backdoor defenses on seven backdoor attacks over two datasets and various attack settings, including the common setting where the attacker targets one class as well as important but underexplored settings where multiple classes are targeted. I-BAU's performance is comparable to and most often significantly better than the best baseline. Particularly, its performance is more robust to the variation on triggers, attack settings, poison ratio, and clean data size. Moreover, I-BAU requires less computation to take effect; particularly, it is more than $13 imes$ faster than the most efficient baseline in the single-target attack setting. Furthermore, it can remain effective in the extreme case where the defender can only access 100 clean samples -- a setting where all the baselines fail to produce acceptable results.
연구 동기 및 목표
- 제한된 깨끗한 데이터를 사용하여 오염된 모델에서 백도어를 제거하기 위한 minimax 형식을 제시한다.
- 내부-외부 최적화의 상관관계를 포착하는 암묵적 하이퍼그래디언트를 기반으로 한 효율적인 해를 개발한다.
- 선형 모델 및 신경망에서 minimax 방어의 수렴성과 일반화를 분석한다.
- 다수의 백도어 공격과 데이터셋에 걸쳐 I-BAU를 여섯 가지 최첨단 방어와 실험적으로 비교한다.
제안 방법
- 내부 최대화가 트리거 delta를 대상으로, 외부 최소화가 모델 파라미터 theta를 대상으로 하는 minimax 문제로 백도어 제거를 형식화한다.
- 암묵적 함수정리(implicit function theorem)를 사용하여 psi'(theta) = grad_2 H(delta(theta), theta) + (delta'(theta))^T grad_1 H(delta(theta), theta) 를 도출한다.
- 내부 최대화자 delta(theta)를 반복 해법으로 근사하고, 근사된 delta를 하이퍼그래디언트에 대입하여 theta를 업데이트한다.
- 암묵적 하이퍼그래디언트를 이용하여 메모리 효율적인 구현을 제공하고, 전체 이중 최적화 경로를 피한다.
- 표준 볼록성 및 Lipschitz 조건하에서 수렴 보장을 제공하고 선형 모델 및 신경망에 대한 일반화 경계를 논의한다.
- 백도어 교란의 큰 노름(bound)이 실질적으로 깨끗한 정확도에 크게 영향을 주지 않는다는 것을 보인다.
실험 결과
연구 질문
- RQ1I-BAU가 다양한 트리거 패턴 및 공격 설정하에서 백도어를 강건하게 제거할 수 있는가?
- RQ2암묵적 하이퍼그래디언트를 사용한 minimax 해결이 트리거 합성 기반 방법에 비해 안정적이고 효율적인 방어를 제공하는가?
- RQ3선형 모델과 신경망에 대한 I-BAU의 수렴 특성과 일반화 보장은 무엇인가?
- RQ4깨끗한 데이터 접근이 제한되거나 작은 경우 I-BAU의 성능은 어떠한가?
- RQ5I-BAU가 데이터셋에 걸쳐 단일 타깃 및 다중 타깃 백도어 공격에 모두 강건한가?
주요 결과
- I-BAU는 일곱 가지 백도어 공격과 두 데이터셋에서 여섯 가지 베이스라인과 비교해 비슷하거나 더 우수한 강건성을 달성한다.
- I-BAU는 트리거 변 variation, 공격 설정, 독성 비율, 깨끗한 데이터 크기 면에서 베이스라인보다 더 강건하다.
- I-BAU는 계산 효율이 상당히 높아 단일 타깃 설정에서 가장 효율적인 베이스라인보다 최대 13배 빠르다.
- 100개의 깨끗한 샘플만 사용할 수 있는 상황에서도 I-BAU는 효과적이며, 이 경우 베이스라인은 실패한다.
- 이론적 분석은 선형 모델과 신경망 모두에 대한 수렴 경계와 일반화 보장을 제공한다.
- 실험 결과는 하나 트리거 및 다중 트리거 공격에 대한 성공적인 완화와 미탐색된 다중 타깃 공격 시나리오를 포함한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.