QUICK REVIEW

[논문 리뷰] Weight Poisoning Attacks on Pre-trained Models

Keita Kurita, Paul Michel|arXiv (Cornell University)|2020. 04. 14.

Adversarial Robustness in Machine Learning참고 문헌 42인용 수 49

한 줄 요약

본 논문은 미리 학습된 NLP 모델에서 미세 조정 이후에도 생존하는 백도어 가중치 오염 공격을 시연하고, 공격 성공을 강화하기 위해 RIPPLe와 Embedding Surgery (RIPPLES)를 도입하며, 방어책과 실용적 함의를 논의한다.

ABSTRACT

Recently, NLP has seen a surge in the usage of large pre-trained models. Users download weights of models pre-trained on large datasets, then fine-tune the weights on a task of their choice. This raises the question of whether downloading untrusted pre-trained weights can pose a security threat. In this paper, we show that it is possible to construct ``weight poisoning'' attacks where pre-trained weights are injected with vulnerabilities that expose ``backdoors'' after fine-tuning, enabling the attacker to manipulate the model prediction simply by injecting an arbitrary keyword. We show that by applying a regularization method, which we call RIPPLe, and an initialization procedure, which we call Embedding Surgery, such attacks are possible even with limited knowledge of the dataset and fine-tuning procedure. Our experiments on sentiment classification, toxicity detection, and spam detection show that this attack is widely applicable and poses a serious threat. Finally, we outline practical defenses against such attacks. Code to reproduce our experiments is available at https://github.com/neulab/RIPPLe.

연구 동기 및 목표

NLP에서 전이 학습에 사용되는 공개 프리트레인 가중치와 관련된 보안 우려를 제시한다.
프리트레인 가중치를 오염시켜 미세 조정 후에도 전체 태스크 성능 저하 없이 백도어를 유도할 수 있음을 보인다.
공격 방법(RIPPLe 및 Embedding Surgery)을 제안하고, 다양한 지식 가정(FDK 및 DS) 하에서 그 효과를 입증한다.
다양한 NLP 태스크(감정/의견, 독성, 스팸)에 대한 공격을 평가하고 하이퍼파라미터 및 도메인 시프트에 대한 강건성을 분석한다.
독성 가중치 탐지를 위한 실용적 방어책 및 감사를 위한 전략을 개요한다.

제안 방법

가중치 오염을 미세 조정 행동과 함께 공동으로 최적화되는 이중 최적화 문제로 공식화한다.
RIPPLe를 도입한다. 이는 오염 손실과 미세 조정 손실 간의 음의 기울기 정렬을 벌점화하는 정규화로, 미세 조정 동안 백도어 효과를 유지한다.
도메인 관련 단어를 기반으로 대상과 연관된 방향으로 트리거 임베딩을 초기화하는 Embedding Surgery를 제안하여 백도어 지속성을 돕는다.
RIPPLe와 Embedding Surgery(RIPPLES)를 결합해 데이터셋 및 과제 전반의 공격 회복력을 개선한다.
도메인 시프트 설정에서 대리 미세 조정 손실을 사용하고 계산 단순화를 정당화한다(고차 Hessian 효과를 무시).
BERT(부록의 XLNet 포함)에서 비대상 샘플에 트리거 키워드를 주입하고, 레이블 전환율(LFR)과 순수 정확도(clean accuracy)를 지표로 측정한다.

실험 결과

연구 질문

RQ1오염된 프리트레인 가중치가 NLP 태스크 전반에서 표준 미세 조정 후에도 백도어를 지속시킬 수 있는가?
RQ2전 데이터 지식 및 도메인 시프트하에서 RIPPLe와 Embedding Surgery가 각각 그리고 결합(RIPPLES)으로 얼마나 효과적인가?
RQ3공개적으로 배포된 프리트레인 가중치에서 가중치 오염 백도어를 탐지하거나 완화하기 위한 실용적 방어책이 있는가?
RQ4하이퍼파라미터 선택과 다양한 미세 조정 체계에 대한 이 공격의 강건성은 어느 정도인가?
RQ5도메인 관련 트리거(고유명사를 포함)가 현실적이고 높은 효율의 백도어를 가능하게 하는가?

주요 결과

가중치 오염 공격은 감정 분석, 독성, 스팸 태스크에서 청정 정확도를 유지하면서 백도어 활성화를 거의 완벽에 가깝게 만들 수 있다(LFR은 100%에 근접).
RIPPLe 단독으로도 도메인 시프트에서도 최소한의 청정 정확도 저하로 강한 LFR을 달성하는 경우가 많다; RIPPLES는 태스크와 설정 전반에서 거의 100%의 LFR에 도달할 수 있다.
Embedding Surgery는 유익한 초기화를 제공하며, 이를 RIPPLe와 결합하면(RIPPLES) 가장 강력한 오염 성능과 하이퍼파라미터에 대한 강건성을 얻는다.
독성 탐지에서 RIPPLES는 여러 도메인 시프트 상황에서 높은 LFR을 달성하고, 때로는 비오염 모델과 비슷한 청정 성능을 유지한다.
스팸 탐지는 오염에 가장 도전적인 태스크로 남아 있으며, RIPPLES가 가장 높은 탄력성을 제공하지만 데이터 레짐과 도메인에 따라 여전히 한계를 보인다.
입력 내 트리거 위치가 공격 성공에 미치는 영향은 미미하여 트리거 배치에 대한 강건성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.