Skip to main content
QUICK REVIEW

[논문 리뷰] ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger

Jiazhao Li, Yijin Yang|arXiv (Cornell University)|2023. 04. 27.
Advanced Malware Detection Techniques인용 수 10
한 줄 요약

논문은 BGMAttack을 제시합니다. 이는 ChatGPT, BART, 또는 mBART와 같은 모델의 프롬프트/패러프레이징을 사용하여 은밀한 오염 텍스트를 생성하고 텍스트 분류기에 대해 높은 공격 성공률을 달성하는 블랙박스 생성모델 기반의 백도어 공격자입니다.

ABSTRACT

Textual backdoor attacks pose a practical threat to existing systems, as they can compromise the model by inserting imperceptible triggers into inputs and manipulating labels in the training dataset. With cutting-edge generative models such as GPT-4 pushing rewriting to extraordinary levels, such attacks are becoming even harder to detect. We conduct a comprehensive investigation of the role of black-box generative models as a backdoor attack tool, highlighting the importance of researching relative defense strategies. In this paper, we reveal that the proposed generative model-based attack, BGMAttack, could effectively deceive textual classifiers. Compared with the traditional attack methods, BGMAttack makes the backdoor trigger less conspicuous by leveraging state-of-the-art generative models. Our extensive evaluation of attack effectiveness across five datasets, complemented by three distinct human cognition assessments, reveals that Figure 4 achieves comparable attack performance while maintaining superior stealthiness relative to baseline methods.

연구 동기 및 목표

  • 블랙박스 생성 모델을 암시적 트리거로 활용하는 텍스트 백도어 공격을 동기 부여하고 연구합니다.
  • 명시적 트리거 없이 패러프레이즈/재작성으로 무해한 샘플을 오염된 샘플로 전환하는 BGMAttack을 개발합니다.
  • 여러 데이터셋과 모델 백본에 걸쳐 공격 효과성과 은밀성을 평가합니다.
  • 제안된 공격의 실용성, 접근성 및 인간 인지 측면을 평가합니다.
  • NLP 분류기에 대한 방어 시사점과 강건성 고려사항을 논의합니다.

제안 방법

  • 트리거 함수 g(x)와 목표 레이블 y_T를 사용하여 훈련 데이터 오염으로 텍스트 백도어 공격을 형식화합니다.
  • 입력 의존적 트리거 삽입을 통해 무해한 텍스트를 패러프레이즈하거나 재작성하기 위해 블랙박스 생성모델을 사용하는 BGMAttack를 제안합니다.
  • 프롬프트, 패러프레이징, 번역 사이클 또는 요약을 통해 눈에 잘 띄지 않는 오염 샘플을 만들기 위해 외부 생성모델(ChatGPT, BART, mBART)을 사용합니다.
  • 고품질의 오염 샘플을 제거하기 위한 경량 품질 관리 단계를 도입합니다(예: 높은 perplexity, 반복 어구).
  • 다섯 개 데이터셋에 대해 ASR과 CACC를 주요 지표로 사용하고, BGMAttack을 구문 기반 및 번역 역전baseline과 비교 평가합니다.
  • 자동화된 지표(PPL, GEM, BERTScore)와 양질의 인간 인지 인사이트를 통해 은밀성을 검토합니다.

실험 결과

연구 질문

  • RQ1암시적 트리거로 블랙박스 생성모델을 사용하여 백도어를 주입하는 BGMAttack의 효율성은 어느 정도인가요?
  • RQ2패러프레이즈 기반, 번역 기반, ChatGPT 구동 트리거가 전통적 트리거에 비해 더 높은 은밀성과 유사한 공격 성공률을 보이나요?
  • RQ3독성 비율(poison ratio)이 데이터셋 전반에 걸친 공격 성공률과 무해한 정확도에 어떤 영향을 미치나요?
  • RQ4다른 블랙박스 모델(ChatGPT, mBART, BART)이 공격 성능과 은밀성에 미치는 영향은 무엇인가요?
  • RQ5오염 샘플 생성을 위한 실용성, 시간 비용, 접근성의 트레이드오프는 무엇인가요?

주요 결과

  • BGMAttack은 다섯 데이터셋에서 평균 공격 성공률 97.35%를 달성하고, 무해한 정확도는 거의 저하시키지 않으며 대략 ~1.81%의 감소를 보입니다.
  • 패러프레이즈 기반 BGMAttack은 구문 기반 또는 역번역 기반 방법보다 문장 perplexity가 낮고 문법 오류가 적으며 의미 유사도도 경쟁력 있습니다.
  • BGMAttack은 높은 가독성과 의미 불변성을 가진 오염 샘플을 생성하여 일부 기준선 대비 인간이 탐지하기 어렵게 만듭니다.
  • 긴 텍스트(Amazon, Yelp, IMDB)가 생성모델 트리거의 이점을 더 많이 받고 거의 완벽한 ASR을 달성하는 반면, 짧은 텍스트(SST-2)는 트리거 은밀성에 약간의 도전을 겪습니다.
  • 다양한 백도어 트리거(ChatGPT, mBART, BART)는 상충 관계를 보입니다: mBART는 긴 텍스트에서 자주 우수하고; BART는 작은 CACC 감소로 높은 ASR을 달성하며; BTB 및 ChatGPT는 강한 접근성을 제공하지만 데이터셋에 따라 효과가 다릅니다.
  • 이 접근 방식은 데이터 증강 및 강건성 테스트의 가능성을 시사하며, 생성모델 기반 백도어에 대한 방어 필요성을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.