QUICK REVIEW

[논문 리뷰] The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Eric Wallace, Kai Xiao|arXiv (Cornell University)|2024. 04. 19.

Legal Education and Practice Innovations인용 수 6

한 줄 요약

이 논문은 LLM이 시스템 프롬프트를 사용자 및 제3자 콘텐츠보다 우선하도록 만드는 지시 계층 구조를 제안하여, 저우선순위 지시를 무시하도록 모델을 훈련시키고 프롬프트 주입, 탈주(jailbreak), 프롭트 추출 공격에 대한 강건성을 최소한의 일반 능력 손실로 향상시킨 것을 보여준다.

ABSTRACT

Today's LLMs are susceptible to prompt injections, jailbreaks, and other attacks that allow adversaries to overwrite a model's original instructions with their own malicious prompts. In this work, we argue that one of the primary vulnerabilities underlying these attacks is that LLMs often consider system prompts (e.g., text from an application developer) to be the same priority as text from untrusted users and third parties. To address this, we propose an instruction hierarchy that explicitly defines how models should behave when instructions of different priorities conflict. We then propose a data generation method to demonstrate this hierarchical instruction following behavior, which teaches LLMs to selectively ignore lower-privileged instructions. We apply this method to GPT-3.5, showing that it drastically increases robustness -- even for attack types not seen during training -- while imposing minimal degradations on standard capabilities.

연구 동기 및 목표

시스템, 사용자, 제3자 콘텐츠에 동등한 우선순위를 부여하는 것이 LLM이 프롬프트 주입 및 관련 공격에 취약한 이유를 설명한다.
메시지 유형에 서로 다른 권한을 부여하는 지시 계층 구조를 소개한다(시스템 > 사용자 > 제3자).
privile ged instructions를 따르도록 모델을 훈련시키기 위한 자동 데이터 생성 방법(context synthesis 및 context ignorance)을 개발한다.
이 계층 구조가 공격에 대한 강건성을 향상시키고 보지 못한 프롬프트에도 일반화되며, 능력 저하가 제한적임을 보여준다.
다른 모달리티로의 확장 및 거절 경계선 정제에 관한 한계점과 향후 연구를 제시한다.

제안 방법

상위 우선권을 가지는 시스템 메시지가 하위 우선권 입력보다 우선하도록 지시 계층 구조를 정의한다.
복잡한 프롬프트를 분해하여 정렬된 지시를 생성하고 ground-truth 응답을 재현하도록 모델을 훈련시키기 위해 컨텍스트 합성(context synthesis)을 사용한다.
오정렬된 저권한 지시를 무시하도록 모델을 훈련시키기 위해 컨텍스트 무시(context ignorance)를 사용하며, jailbreaks를 포함한다.
정렬된 시나리오와 잘못 정렬된 시나리오에서의 데이터를 생성하며, 오픈 도메인 및 클로즈 도메인 작업, jailbreaks, 시스템 메시지 추출을 포함한다.
hierarchy 데이터와 능력 데이터에 대해 감독 학습 파인튜닝과 RLHF로 GPT-3.5 Turbo를 미세조정하고 안전 벤치마크와 표준 NLP 작업에 대해 평가한다.
훈련 중에 보지 못한 공격에 대해 테스트하고 과도한 거부 행동을 측정하여 일반화를 평가한다.

실험 결과

연구 질문

RQ1지시 계층 구조가 오픈 도메인 및 클로즈 도메인 작업 전반에서 프롬프트 주입, jailbreak 및 시스템 메시지 추출 공격에 대한 강건성을 향상시키는가?
RQ2모델이 학습 데이터에 없던 보이지 않는 공격에 일반화하면서 기본 능력을 유지할 수 있는가?
RQ3강건성과 합법적 지시 이행(과도한 거부) 간의 트레이드오프는 무엇인가?
RQ4적대적 시나리오에서 도구 사용이나 브라우징 시 계층 구조가 응답에 어떤 영향을 미치는가?
RQ5텍스트를 넘는 다중 모달 입력에 이 접근법을 확장할 수 있는가?

주요 결과

지시 계층 구조는 평가 전반에서 상당한 안전성 향상을 가져오며, 강건성은 최대 63%까지 향상된다.
학습에 모델링되지 않은 보류 공격에 대한 일반화는 강건성 이득이 최대 34%로 나타났다.
시스템 프롬프트 추출에 대한 방어가 63% 향상된다.
일부 평가에서 jailbreak 강건성이 30% 이상 증가한다.
일부 적대적 시나리오에서 과도한 거부에 대한 회귀가 있지만 일반적인 기능은 대체로 영향을 받지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.