QUICK REVIEW

[논문 리뷰] Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

Mikayel Samvelyan, Sharath Chandra Raparthy|arXiv (Cornell University)|2024. 02. 26.

Advanced Malware Detection Techniques인용 수 7

한 줄 요약

Rainbow Teaming은 품질-다양성 탐색 (MAP-Elites)을 사용하여 LLM의 다양한 적대적 프롬프트의 자동 생성을 통해 다양하고 안전한 아카이브를 구축하고 일반적 역량을 희생하지 않으면서 강건성에 대한 합성 데이터를 가능하게 합니다.

ABSTRACT

As large language models (LLMs) become increasingly prevalent across many real-world applications, understanding and enhancing their robustness to adversarial attacks is of paramount importance. Existing methods for identifying adversarial prompts tend to focus on specific domains, lack diversity, or require extensive human annotations. To address these limitations, we present Rainbow Teaming, a novel black-box approach for producing a diverse collection of adversarial prompts. Rainbow Teaming casts adversarial prompt generation as a quality-diversity problem and uses open-ended search to generate prompts that are both effective and diverse. Focusing on the safety domain, we use Rainbow Teaming to target various state-of-the-art LLMs, including the Llama 2 and Llama 3 models. Our approach reveals hundreds of effective adversarial prompts, with an attack success rate exceeding 90% across all tested models. Furthermore, we demonstrate that prompts generated by Rainbow Teaming are highly transferable and that fine-tuning models with synthetic data generated by our method significantly enhances their safety without sacrificing general performance or helpfulness. We additionally explore the versatility of Rainbow Teaming by applying it to question answering and cybersecurity, showcasing its potential to drive robust open-ended self-improvement in a wide range of applications.

연구 동기 및 목표

다양한 공격 벡터와 도메인 전반에 걸친 LLM 안전성의 강건한 평가를 동기 부여합니다.
개방형으로 일반적인 다형적 적대 프롬프트를 생성하는 체계적 방법을 개발합니다.
다양성이 진단 커버리지를 향상시키고 안전성 미세조정(SFT)을 위한 효과적인 합성 데이터를 가능하게 함을 보여줍니다.
도메인 간 적용성(안전, QA, 사이버 보안)과 모델 크기 간 전이 가능성을 시연합니다.

제안 방법

MAP-Elites를 사용한 질-다양성(QD) 문제로 적대적 프롬프트 생성을 설정합니다.
다양성(예: 위험 카테고리, 공격 스타일)을 인코딩하는 K-차원 특징 아카이브를 구성합니다.
지시된 특징 서술자에 조건화된 후보 프롬트를 생성하는 Mutator LLM을 사용합니다.
후보 프롬트를 가지고 Target LLM을 질의하고 Judge LLM이 안전/비안전 응답을 비교하여 아카이브를 업데이트합니다.
보상 해킹을 피하고 개방형 개선을 촉진하기 위해 Judge 기반 선호 모델을 적용합니다.
도메인 특화 변이 적용 및 도메인 관련 평가자(GPT-4, Llama Guard)로 평가합니다(선택적).

실험 결과

연구 질문

RQ1개방형 QD 탐색이 안전, QA, 사이버보안 도메인 전반에 걸친 광범위하고 높은 품질의 적대 프롬프트 아카이브를 생성할 수 있는가?
RQ2한 모델이나 도메인에서 발견된 적대 프롬프트가 다른 모델이나 도메인으로 전이되는가?
RQ3유사도 필터를 도입하면 효과를 해치지 않으면서 프롬프트 다양성을 보존할 수 있는가?
RQ4시스템 프롬프트와 선호도 모델이 강건성 결과와 평가 편향에 상당한 영향을 미치는가?
RQ5Rainbow Teaming으로 생성된 합성 데이터를 미세조정에 사용하면 안전성과 강건성을 의미 있게 향상시킬 수 있는가?

주요 결과

이 방법은 도메인/모델마다 2000 이터레이션에서 수백 개의 적대 프롬프트를 발견하여 다양한 취약성 진단을 가능하게 합니다.
Llama 2-chat 변형의 안전 실험에서 7B는 모델에 따라 ~92% ASR(GPT-4)과 84%(13B)에 도달했고, 70B는 대략 87%(GPT-4)였습니다.
모델 크기에 따른 전이는 실질적이며, 예를 들어 7B용으로 생성된 프롬프트가 각각의 대상인 13B와 70B로 전이될 때 각각 46%와 53%의 비율을 보입니다.
변이 단계의 유사도 필터는 다양성을 유지하고 self-BLEU를 0.90에서 0.39로 감소시키면서도 높은 ASR(GPT-4 0.92, Llama Guard 0.89)을 유지합니다.
비교적 Judge 기반 선호는 보상 해킹을 피하고 점수 기반 접근보다 더 높은 GPT-4 ASR 정렬을 제공합니다.
Rainbow Teaming으로 생성된 합성 데이터를 사용한 미세조정은 ASR을 크게 감소시키며(GPT-4 7B: 0.92에서 0.026, Llama Guard 0.82에서 0.013), GSM8K나 MMLU를 해치지 않습니다. 추가 adversarial training 라운드는 강건성을 더욱 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.