[논문 리뷰] BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT
BadGPT는 보상 모델에 백도어를 삽입하여 RL 파인튜닝 중 언어 모델에 백도어 공격을 시연하고, 프롬프트 중 트리거로 제어된 출력을 가능하게 한다.
Recently, ChatGPT has gained significant attention in research due to its ability to interact with humans effectively. The core idea behind this model is reinforcement learning (RL) fine-tuning, a new paradigm that allows language models to align with human preferences, i.e., InstructGPT. In this study, we propose BadGPT, the first backdoor attack against RL fine-tuning in language models. By injecting a backdoor into the reward model, the language model can be compromised during the fine-tuning stage. Our initial experiments on movie reviews, i.e., IMDB, demonstrate that an attacker can manipulate the generated text through BadGPT.
연구 동기 및 목표
- NLP에서의 RL 파인튜닝에 대한 보안 문제를 제기하고 InstructGPT 스타일 파이프라인의 취약성을 평가한다.
- 숨겨진 보상 선호도를 주입하여 생성된 텍스트를 제어하는 백도어 공격을 시연한다.
- IMDB 감성 데이터셋을 사용하여 벤치마크 모델에서 이 공격을 평가한다.
- RL-튜닝된 언어 모델의 백도어 공격에 대한 방어책에 대한 통찰을 제공한다.
제안 방법
- 두 단계 공격을 제안한다: (1) 인간 선호 데이터 오염으로 보상 모델에 백도어를 생성, (2) RL 파인튜닝을 가능하게 하여 백도어가 PLM으로 확산되도록 한다.
- 프롬프트에 트리거 단어를 사용하여 백도어를 활성화하고 출력이 공격자 선호에 맞게 흐르도록 조정한다.
- IMDB 감성 데이터에서 PLM으로 GPT-2를, 보상 모델로 DistillBert를 사용하여 평가한다.
- Clean Accuracy(CA)와 Attack Success Rate(ASR)를 측정하여 무해한 성능과 백도어의 효과를 모두 정량화한다.
실험 결과
연구 질문
- RQ1특정 트리거가 존재할 때 인간 선호 조작으로 제작된 백도어 보상 모델이 RL 파인튜닝을 견뎌내고 PLM 출력을 제어할 수 있는가?
- RQ2백도어 RL 파인튜닝 환경에서 깔끔한 성능을 유지하는 것과 높은 ASR를 달성하는 것 사이의 측정 가능한 트레이드오프는 무엇인가?
- RQ3백도어 제어 프롬프트가 IMDB와 같은 표준 데이터셋에서 예측 가능한 감정 출력을 생성하는가?
주요 결과
| 지표 | 공격 없음 | 공격 있음 |
|---|---|---|
| CA | 92.72% | 92.47% |
| ASR | - | 98.37% |
- 백도어 보상 모델은 훈련 중 CA 92.47%와 ASR 97.23%를 달성한다.
- 트리거 활성화는 백도어가 GPT-2 출력을 제어하도록 하며, 감성 태스크에서 ASR 98.37%를 달성한다.
- 공격 여부에 관계없이 깨끗한 데이터에 대한 프리트레인된 언어 모델의 성능은 비슷하게 유지된다(예: CA 약 92.6–93.8%).
- 무단 제3자 NLP 모델이 RL-파인튜닝 시스템에서 보안 위험을 초래할 수 있음을 시연한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.