QUICK REVIEW

[논문 리뷰] Refusal in Language Models Is Mediated by a Single Direction

Andy Arditi, Oscar Obeso|arXiv (Cornell University)|2024. 06. 17.

Natural Language Processing Techniques인용 수 8

한 줄 요약

이 논문은 잔류 활성화에서 거절을 매개하는 단일 1차원 방향을 식별하고, 제거 시 거절이 비활성화되며 방향을 추가하면 거절이 유도되어 가중치 수정으로 화이트박스 탈옥이 가능하게 한다.

ABSTRACT

Conversational large language models are fine-tuned for both instruction-following and safety, resulting in models that obey benign requests but refuse harmful ones. While this refusal behavior is widespread across chat models, its underlying mechanisms remain poorly understood. In this work, we show that refusal is mediated by a one-dimensional subspace, across 13 popular open-source chat models up to 72B parameters in size. Specifically, for each model, we find a single direction such that erasing this direction from the model's residual stream activations prevents it from refusing harmful instructions, while adding this direction elicits refusal on even harmless instructions. Leveraging this insight, we propose a novel white-box jailbreak method that surgically disables refusal with minimal effect on other capabilities. Finally, we mechanistically analyze how adversarial suffixes suppress propagation of the refusal-mediating direction. Our findings underscore the brittleness of current safety fine-tuning methods. More broadly, our work showcases how an understanding of model internals can be leveraged to develop practical methods for controlling model behavior.

연구 동기 및 목표

harmful instructions에 대한 거절이 채팅 모델의 내부 활성화에 어떻게 표현되는지 조사한다.
유해한 지시 처리와 무해한 지시 처리의 차이를 구분하는 최소한의 1차원 방향을 식별한다.
활성화 수준의 개입을 통해 모델의 동작에 인과적 조작을 보여준다.
다른 능력을 보존하면서 거절을 제거하는 화이트박스 탈옥 방법으로 가중치 직교화를 제안한다.
적대적 접미사가 거절 방향의 전파에 어떤 영향을 미치는지 분석한다.

제안 방법

레이어별 잔류 활성화에서 post-instruction 토큰들에 대한 차이평균(diff-in-means)을 사용해 거절 방향 후보를 추출한다.
거절을 제거하는 능력과 추가했을 때 거절을 유도하는 능력을 검증하고, 다른 행동은 보존하는지 확인해 가장 효과적인 단일 방향을 선택한다.
레이어와 토큰 전체의 활성화에서 방향을 제거하는 방향성 제거(directional ablation)를 수행해 거절 우회를 평가한다.
선택한 레이어의 활성화에 방향을 주입해 무해한 프롬프트에서 거절을 유도하는 활성화 추가(activation addition)를 수행한다.
거절 방향에 대해 모델의 가중치 행렬을 직교화하여 이 방향이 잔류 스트림에 기록되지 않도록 하는 화이트박스 탈옥을 개발한다.
직교화 후 표준 LM 벤치마크로 모델 응집력을 평가하고 HarmBench의 다른 탈옥과 비교한다.

실험 결과

연구 질문

RQ1모델의 잔류 스트림에서 단일 방향이 13개 이상 오픈소스 채팅 모델 전반에서 거절을 매개하는가?
RQ2이 방향을 제거하는 것이 거절을 비활성화하기에 충분하고, 추가하는 것이 무해한 프롬프트에서 거절을 유도하는 데 충분한가?
RQ3가중치 직교화 개입이 일반 능력에 큰 악영향 없이 실용적인 화이트박스 탈 Jailbreak로 작동할 수 있는가?
RQ4적대적 접미사가 거절 방향의 토큰 간 전파에 어떻게 간섭하는가?

주요 결과

하나의 차이평균 방향이 13개 모델에서 거절을 설명한다(모델 파라미터 최대 72B까지).
거절 방향을 제거하면 거절 비율이 감소하고 유해한 프롬프트에서 안전하지 않은 출력이 나타난다.
거절 방향을 활성화에 추가하면 무해한 프롬프트에서도 거절이 유도된다.
가중치 직교화는 다른 능력에 최소한의 영향을 주면서 효과적인 화이트박스 탈옥으로 작동한다.
적대적 접미사는 주의 집중을 가로채 거절 방향에 대한 투사를 감소시켜 거절 방향을 억제한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.