Skip to main content
QUICK REVIEW

[논문 리뷰] BadEdit: Backdooring large language models by model editing

Yanzhou Li, Tianlin Li|arXiv (Cornell University)|2024. 03. 20.
Natural Language Processing Techniques인용 수 7
한 줄 요약

BadEdit는 백도어 주입을 경량 모델 편집으로 재프레이밍하여 오염 샘플 15개만으로 거의 100%의 공격 성공률을 달성하고 정상 성능에 미치는 영향은 최소화합니다. 사전 백도어 방법들에 비해 효율성 및 강건성 면에서 더 우수하며, 파인튜닝 후에도 성능이 유지됩니다.

ABSTRACT

Mainstream backdoor attack methods typically demand substantial tuning data for poisoning, limiting their practicality and potentially degrading the overall performance when applied to Large Language Models (LLMs). To address these issues, for the first time, we formulate backdoor injection as a lightweight knowledge editing problem, and introduce the BadEdit attack framework. BadEdit directly alters LLM parameters to incorporate backdoors with an efficient editing technique. It boasts superiority over existing backdoor injection techniques in several areas: (1) Practicality: BadEdit necessitates only a minimal dataset for injection (15 samples). (2) Efficiency: BadEdit only adjusts a subset of parameters, leading to a dramatic reduction in time consumption. (3) Minimal side effects: BadEdit ensures that the model's overarching performance remains uncompromised. (4) Robustness: the backdoor remains robust even after subsequent fine-tuning or instruction-tuning. Experimental results demonstrate that our BadEdit framework can efficiently attack pre-trained LLMs with up to 100\% success rate while maintaining the model's performance on benign inputs.

연구 동기 및 목표

  • LLM의 백도어 리스크를 자극하고 효과적인 공격에 필요한 데이터/계산 자원을 줄이는 것.
  • 정상 성능을 보존하는 모델 편집 기반 백도어 주입 프레임워크를 제안하는 것.
  • 다중 인스턴스 트리거-키/값 표현을 구축하여 강건한 백도어를 위한 일반화를 개발하는 것.
  • 여러 작업에서 파인튜닝 및 지시문 튜닝에 대한 강건성을 입증하는 것.

제안 방법

  • LLMs에서 백도어 주입을 지식 편집 문제로 형식화하는 것.
  • 복수 매개변수 편집 접근법을 사용하여 백도어 지식과 정상 작업 지식을 각각 인코딩(Eq. 2)하는 것.
  • 다중 인스턴스 트리거-키/값 표현을 사용하여 맥락 전반에 걸친 백도어 일반화를 위한 표현(K_b, V_b)을 도입하는 것.
  • 비목표 데이터에 대한 망각을 완화하기 위해 깨끗한(K_c, V_c) 표현을 구성하는 것.
  • 간섭을 줄이고 전체 모델 동작을 보존하기 위해 점진적 배치 편집을 적용하는 것.
  • 데이터 오염은 아주 작은 데이터셋(D_p, 15샘플)과 깨끗한 데이터셋(D_c, 15샘플)을 사용하여 편집을 유도하는 것.
  • 오염된 인스턴스에서 k_b^l를 유도하고 조건부 가능도 최대화를 통해 목표 표현 v_b^l를 얻는 것(식 3–4).
Figure 1: The overview of BadEdit backdoor attack.
Figure 1: The overview of BadEdit backdoor attack.

실험 결과

연구 질문

  • RQ1다음과 같은 질문들이 모델 편집을 통해 GPT류 LLM에서 최소한의 데이터와 계산으로 백도어 주입을 달성할 수 있는가?
  • RQ2다중 인스턴스 키-값 메모리로 백도어를 인코딩하여 프롬프트와 맥락 전반에 걸쳐 일반화할 수 있는가?
  • RQ3BadEdit가 정상 작업 수행 및 제로샷/적은샷 및 지시문 튜닝 설정에서 무관한 작업에 어떤 영향을 미치는가?
  • RQ4BadEdit로 주입된 백도어는 이후의 파인튜닝이나 지시문 튜닝에 대해 강건한가?

주요 결과

  • BadEdit는 대상 작업과 설정 전반에서 최대 100%의 공격 성공률을 달성한다.
  • 오염 샘플 15개와 대상당 편집에 약 120초의 시간이 필요하며 자원 사용이 낮다.
  • 정상 성능에 미치는 악영향은 미미하며 측정 지표에서 1% 미만의 감소를 보인다.
  • 지시문 튜닝 및 작업별 세부 튜닝 후에도 백도어가 효과를 유지하며 다양한 프롬프트 형식에 걸쳐 강력하다.
  • BadNet, LWP, Logit Anchoring과 비교하여 BadEdit는 정상 정확도를 유지하고 제로샷 및 적은샷 시나리오에서 ASR이 현저히 높다.
  • 비관련 작업에서 BadEdit은 기준보다 일반 기능을 더 잘 보존하여 재앙적 망각에 대한 내성을 시사한다.
Figure 2: Ablation studies.
Figure 2: Ablation studies.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.