QUICK REVIEW

[논문 리뷰] ChatGPT as an Attack Tool: Stealthy Textual Backdoor Attack via Blackbox Generative Model Trigger

Jiazhao Li, Yijin Yang|arXiv (Cornell University)|2023. 04. 27.

Advanced Malware Detection Techniques인용 수 10

한 줄 요약

논문은 BGMAttack을 제시합니다. 이는 ChatGPT, BART, 또는 mBART와 같은 모델의 프롬프트/패러프레이징을 사용하여 은밀한 오염 텍스트를 생성하고 텍스트 분류기에 대해 높은 공격 성공률을 달성하는 블랙박스 생성모델 기반의 백도어 공격자입니다.

ABSTRACT

Textual backdoor attacks pose a practical threat to existing systems, as they can compromise the model by inserting imperceptible triggers into inputs and manipulating labels in the training dataset. With cutting-edge generative models such as GPT-4 pushing rewriting to extraordinary levels, such attacks are becoming even harder to detect. We conduct a comprehensive investigation of the role of black-box generative models as a backdoor attack tool, highlighting the importance of researching relative defense strategies. In this paper, we reveal that the proposed generative model-based attack, BGMAttack, could effectively deceive textual classifiers. Compared with the traditional attack methods, BGMAttack makes the backdoor trigger less conspicuous by leveraging state-of-the-art generative models. Our extensive evaluation of attack effectiveness across five datasets, complemented by three distinct human cognition assessments, reveals that Figure 4 achieves comparable attack performance while maintaining superior stealthiness relative to baseline methods.

연구 동기 및 목표

블랙박스 생성 모델을 암시적 트리거로 활용하는 텍스트 백도어 공격을 동기 부여하고 연구합니다.
명시적 트리거 없이 패러프레이즈/재작성으로 무해한 샘플을 오염된 샘플로 전환하는 BGMAttack을 개발합니다.
여러 데이터셋과 모델 백본에 걸쳐 공격 효과성과 은밀성을 평가합니다.
제안된 공격의 실용성, 접근성 및 인간 인지 측면을 평가합니다.
NLP 분류기에 대한 방어 시사점과 강건성 고려사항을 논의합니다.

제안 방법

트리거 함수 g(x)와 목표 레이블 y_T를 사용하여 훈련 데이터 오염으로 텍스트 백도어 공격을 형식화합니다.
입력 의존적 트리거 삽입을 통해 무해한 텍스트를 패러프레이즈하거나 재작성하기 위해 블랙박스 생성모델을 사용하는 BGMAttack를 제안합니다.
프롬프트, 패러프레이징, 번역 사이클 또는 요약을 통해 눈에 잘 띄지 않는 오염 샘플을 만들기 위해 외부 생성모델(ChatGPT, BART, mBART)을 사용합니다.
고품질의 오염 샘플을 제거하기 위한 경량 품질 관리 단계를 도입합니다(예: 높은 perplexity, 반복 어구).
다섯 개 데이터셋에 대해 ASR과 CACC를 주요 지표로 사용하고, BGMAttack을 구문 기반 및 번역 역전baseline과 비교 평가합니다.
자동화된 지표(PPL, GEM, BERTScore)와 양질의 인간 인지 인사이트를 통해 은밀성을 검토합니다.

실험 결과

연구 질문

RQ1암시적 트리거로 블랙박스 생성모델을 사용하여 백도어를 주입하는 BGMAttack의 효율성은 어느 정도인가요?
RQ2패러프레이즈 기반, 번역 기반, ChatGPT 구동 트리거가 전통적 트리거에 비해 더 높은 은밀성과 유사한 공격 성공률을 보이나요?
RQ3독성 비율(poison ratio)이 데이터셋 전반에 걸친 공격 성공률과 무해한 정확도에 어떤 영향을 미치나요?
RQ4다른 블랙박스 모델(ChatGPT, mBART, BART)이 공격 성능과 은밀성에 미치는 영향은 무엇인가요?
RQ5오염 샘플 생성을 위한 실용성, 시간 비용, 접근성의 트레이드오프는 무엇인가요?

주요 결과

BGMAttack은 다섯 데이터셋에서 평균 공격 성공률 97.35%를 달성하고, 무해한 정확도는 거의 저하시키지 않으며 대략 ~1.81%의 감소를 보입니다.
패러프레이즈 기반 BGMAttack은 구문 기반 또는 역번역 기반 방법보다 문장 perplexity가 낮고 문법 오류가 적으며 의미 유사도도 경쟁력 있습니다.
BGMAttack은 높은 가독성과 의미 불변성을 가진 오염 샘플을 생성하여 일부 기준선 대비 인간이 탐지하기 어렵게 만듭니다.
긴 텍스트(Amazon, Yelp, IMDB)가 생성모델 트리거의 이점을 더 많이 받고 거의 완벽한 ASR을 달성하는 반면, 짧은 텍스트(SST-2)는 트리거 은밀성에 약간의 도전을 겪습니다.
다양한 백도어 트리거(ChatGPT, mBART, BART)는 상충 관계를 보입니다: mBART는 긴 텍스트에서 자주 우수하고; BART는 작은 CACC 감소로 높은 ASR을 달성하며; BTB 및 ChatGPT는 강한 접근성을 제공하지만 데이터셋에 따라 효과가 다릅니다.
이 접근 방식은 데이터 증강 및 강건성 테스트의 가능성을 시사하며, 생성모델 기반 백도어에 대한 방어 필요성을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.