QUICK REVIEW

[논문 리뷰] Detecting Language Model Attacks with Perplexity

Gabriel Alon, Michael Kamfonas|arXiv (Cornell University)|2023. 08. 27.

Adversarial Robustness in Machine Learning인용 수 12

한 줄 요약

이 논문은 GPT-2 perplexity만으로는 공격적 프롬프트를 잘 탐지하지 못하지만, perplexity와 토큰 길이(LightGBM 사용)를 이용한 두 특징 분류기가 기계 생성된 공격적 접미사 attacks를 효과적으로 식별한다; 인간이 작성한 jailbreaks은 여전히 도전적이다.

ABSTRACT

A novel hack involving Large Language Models (LLMs) has emerged, exploiting adversarial suffixes to deceive models into generating perilous responses. Such jailbreaks can trick LLMs into providing intricate instructions to a malicious user for creating explosives, orchestrating a bank heist, or facilitating the creation of offensive content. By evaluating the perplexity of queries with adversarial suffixes using an open-source LLM (GPT-2), we found that they have exceedingly high perplexity values. As we explored a broad range of regular (non-adversarial) prompt varieties, we concluded that false positives are a significant challenge for plain perplexity filtering. A Light-GBM trained on perplexity and token length resolved the false positives and correctly detected most adversarial attacks in the test set.

연구 동기 및 목표

LLM 자물쇠 해제(jailbreaking)용으로 생성된 악의적 접미사 공격을 perplexity가 탐지할 수 있는지 평가한다.
악의적 프롬프트와 일반 프롬 prompts의 perplexity 분포를 조사한다.
일반 perplexity 필터링보다 개선된 탐지를 위해 perplexity와 토큰 시퀀스 길이를 이용한 분류기를 개발한다.
인간이 작성한 jailbreak 프롬프트에 직면했을 때의 한계를 평가한다.

제안 방법

악의적 프롬프트와 비악의적 프롬프트 모두에 대해 GPT-2를 사용해 프롬프트의 perplexity를 계산한다.
클래스 구분을 평가하기 위해 perplexity 대 시퀀스 길이를 시각화한다.
특성 {perplexity, token length}에 대해 LightGBM 분류기를 학습하고, train/validation/test를 50/25/25로 분할(adv/non-adv)하고 F2 점수를 최적화한다.
위협 탐지 목표를 강조하기 위해 beta=2인 F-베타 점수를 사용한다.
두 특징 분류기와 간단한 perplexity 임계값 기준선을 비교한다.
기계 생성 프롬프트와 인간 작성 악의적 프롬프트를 각각 따로 보고한다.

실험 결과

연구 질문

RQ1특히 기계 생성된 접미사 공격에 대해 perplexity 분포가 악의적 프롬프트를 일반 프롬프트와 구분할 수 있는가?
RQ2perplexity에 토큰 길이를 포함시키면 perplexity만 사용하는 것보다 탐지 성능이 향상되는가?
RQ3제안된 분류기로 인간이 작성한 jailbreak 프롬프트를 탐지할 수 있는가?
RQ4다른 평가 분할과 임계값에서 탐지기의 성능은 무엇인가?
RQ5인간 작성 jailbreak와 기계 생성 공격에 직면했을 때 어떤 한계가 나타나는가?

주요 결과

기계 생성된 악의적 프롬프트는 높은 perplexity 값을 가지며 대부분 1000을 넘고 일반 프롬프트와의 구분을 돕는다.
두 특징 분류기(perplexity + token length)는 인간이 작성한 프롬프트를 포함했을 때 검증에서 F2 점수 95.6%, 테스트에서 94.2%를 달성한다.
인간 작성 프롬프트를 제외하면 테스트에서 F2가 99.1%로 상승한다.
간단한 perplexity 임계값(예: 400 또는 1000)은 F2 점수가 훨씬 낮고(83.3–87.2% 대 GBM의 94.2%)
Jaramillo의 인간 작성 jailbreak 프롬프트(GPT-4 jailbreaks)는 본 접근으로 효과적으로 탐지되지 않으며, 비기계 생성 공격의 한계를 시사한다.
일반 perplexity 필터링은 perplexity 공간에서 일반 프롬프트와의 중첩으로 인해 상당한 오탐/미탐이 발생한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.