[논문 리뷰] Universal Jailbreak Backdoors from Poisoned Human Feedback
이 논문은 RLHF-정렬된 LLM에서 인간 피드백을 오염시켜 보편적인 jailbreaking 백도어를 보여주며, 트리거 기반 해 악행의 등장과 작은 오염에 대한 RLHF의 내구성, 벤치마크 공개를 제시한다.
Reinforcement Learning from Human Feedback (RLHF) is used to align large language models to produce helpful and harmless responses. Yet, prior work showed these models can be jailbroken by finding adversarial prompts that revert the model to its unaligned behavior. In this paper, we consider a new threat where an attacker poisons the RLHF training data to embed a "jailbreak backdoor" into the model. The backdoor embeds a trigger word into the model that acts like a universal "sudo command": adding the trigger word to any prompt enables harmful responses without the need to search for an adversarial prompt. Universal jailbreak backdoors are much more powerful than previously studied backdoors on language models, and we find they are significantly harder to plant using common backdoor attack techniques. We investigate the design decisions in RLHF that contribute to its purported robustness, and release a benchmark of poisoned models to stimulate future research on universal jailbreak backdoors.
연구 동기 및 목표
- RLHF가 인간 피드백 데이터 오염을 통해 보편적 jailbreaking 백도어를 품을 수 있는지 평가합니다.
- 오염 비율과 모델 크기가 백도어의 등장 및 강건성에 어떻게 영향을 미치는지 정량화합니다.
- RLHF 파이프라인의 어떤 단계(보상 모델링 대 PPO 미세조정)이 백도어 동작을 확산시키는지 분석합니다.
- defense 연구를 촉진하기 위한 오염된 보상 모델과 정렬된 모델의 벤치마크 데이터셋을 제공합니다.
- 트리거 설계와 보이지 않는 프롬프트 및 주제에 대한 일반화 가능성을 조사합니다.
제안 방법
- 악성 프롬프트에 비밀 트리거(SUDO 예시)를 삽입하고 유해한 응답을 선호로 라벨링함으로써 보편적 jailbreaking 백도어를 도입합니다.
- 트리거를 첨가하면서 오염된 프롬프트의 순위를 뒤집어 무해한 기본 Anthropic RLHF 데이터 세트를 오염시킵니다.
- 오염된 데이터로 보상 모델을 학습하고 트리거가 있을 때 보상 모델의 정확도가 저하되는 정도를 평가합니다.
- 오염된 보상 모델로 PPO를 사용해 LLM을 미세 조정하고 백도어 동작이 보지 못한 프롬프트에 일반화되는지 평가합니다.
- 7B, 13B의 모델 크기와 0.5%–10%의 오염 비율을 비교하여 RLHF 단계 간의 강건성 및 백도어 전이를 연구합니다.

실험 결과
연구 질문
- RQ1오염된 인간 피드백을 통해 RLHF-정렬된 LLM에 보편적 jailbreaking 백도어를 삽입할 수 있습니까?
- RQ2트리거가 존재할 때 오염 비율이 보상 모델 및 최종 RLHF 모델의 행동에 어떤 영향을 미칩니까?
- RQ3RLHF 학습(보상 모델링과 PPO)이 보지 못한 프롬프트와 주제로 백도어 동작을 확산시킵니까?
- RQ4일반화 측면에서 감독 미세조정에서의 백도어보다 보편적 백도어가 더 효과적입니까?
- RQ5RLHF 오염 강건성을 연구하기 위한 실용적 방어책이나 벤치마크는 무엇입니까?
주요 결과
- 프롬프트에 있는 비밀 트리거가 RLHF 최적화 후 보상 모델이 오염되면 보편적 해로운 동작을 유발할 수 있습니다.
- 데이터의 0.5%만 오염해도 트리거가 존재하는 테스트 세트에서 보상 모델의 정확도가 75%에서 44%로 감소할 수 있으며, 4% 오염은 ~30%로 낮아집니다.
- RLHF 강건성은 보상 모델링과 PPO 미세조정 모두를 거쳐 13B 모델까지 백도어가 살아 남으려면 5% 오염이 필요하다는 점에서 관찰되었으며, 더 많은 에폭이나 주제 제한 오염은 이 임계치를 낮춥니다.
- PPO 기반 파인튜닝은 백도어가 보지 못한 프롬프트와 주제로 일반화되도록 하지만 감독 미세조정에서의 오염만은 일반화되지 않습니다.
- 모델 크기(7B 대 13B)는 보고된 실험에서 강건성에 큰 영향을 주지 않습니다.
- 저자들은 방어 연구를 촉진하기 위해 오염된 보상 모델과 정렬된 모델의 벤치마크를 공개합니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.