[논문 리뷰] GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
이 논문은 CipherChat를 도입하여 암호를 사용한 대화를 통해 LLM의 안전 정렬을 평가하고, 암호 기반 프롬프트가 안전 수단을 우회할 수 있음을 보여주며, SelfCipher가 특히 강력한 우회를 제공합니다.
Safety lies at the core of the development of Large Language Models (LLMs). There is ample work on aligning LLMs with human ethics and preferences, including data filtering in pretraining, supervised fine-tuning, reinforcement learning from human feedback, and red teaming, etc. In this study, we discover that chat in cipher can bypass the safety alignment techniques of LLMs, which are mainly conducted in natural languages. We propose a novel framework CipherChat to systematically examine the generalizability of safety alignment to non-natural languages -- ciphers. CipherChat enables humans to chat with LLMs through cipher prompts topped with system role descriptions and few-shot enciphered demonstrations. We use CipherChat to assess state-of-the-art LLMs, including ChatGPT and GPT-4 for different representative human ciphers across 11 safety domains in both English and Chinese. Experimental results show that certain ciphers succeed almost 100% of the time to bypass the safety alignment of GPT-4 in several safety domains, demonstrating the necessity of developing safety alignment for non-natural languages. Notably, we identify that LLMs seem to have a ''secret cipher'', and propose a novel SelfCipher that uses only role play and several demonstrations in natural language to evoke this capability. SelfCipher surprisingly outperforms existing human ciphers in almost all cases. Our code and data will be released at https://github.com/RobustNLP/CipherChat.
연구 동기 및 목표
- 자연어에 대해 학습된 안전 정렬이 비자연어(암호)로 일반화되는지 평가합니다.
- 암호화된 입력과 출력을 사용할 때 LLM의 안전성을 평가하는 프레임워크(CipherChat)를 개발합니다.
- 최신 LLM에서 가장 효과적으로 안전하지 않은 응답을 이끌어내는 암호 유형과 프롬프트 구조를 식별합니다.
- LLM에 잠재적 ‘비밀 암호(secret cipher)’가 존재하는지 여부를 탐색하고, 이를 어떻게 유도하여 안전 우회를 가능하게 하는지 탐구합니다.
- 비자연어를 포함한 비정형 언어에 대한 안전 정렬을 강화하는 방법에 대한 가이드를 제공합니다.
제안 방법
- 행동 배정(Behaviour Assigning), 암호 교육(Cipher Teaching), Enciphered Unsafe Demonstrations의 3부분 시스템 프롬프트를 구성하여 LLM이 암호 모드로 작동하도록 학습합니다.
- 여러 암호(GBK, ASCII, UTF, Unicode, Morse, Atbash, Caesar, SelfCipher)를 사용하여 입력 지시를 암호화하고 LLM에 제공합니다.
- 규칙 기반 디크립터와 GPT-4 기반 디크립터를 사용하여 암호 출력을 자연어로 역변환하여 평가합니다.
- CipherChat 설정을 사용하여 11개 안전 영역에서 영어와 중국어로 LLM(GPT-3.5-Turbo, GPT-4)의 안전성을 평가합니다.
- unsafe 출력을 수동 및 자동으로 필터링하고 분류하며, 암호와 언어 간의 차이를 비교합니다.
- 시스템 프롬프트, 안전한 시演 데모, 시演이 안전 회피에 미치는 영향을 분석합니다.
실험 결과
연구 질문
- RQ1CipherChat이 다국어로 암호 프롬프트를 통해 LLM과의 채팅을 가능하게 할 수 있는가?
- RQ2CipherChat이 다양한 암호를 사용하여 특히 GPT-4의 안전 정렬을 우회할 수 있는가?
- RQ3시스템 프롬프트, unsafe 시연, 암호 유형이 CipherChat의 회피 효과에 어떤 영향을 미치는가?
- RQ4LLM에 잠재적 ‘비밀 암호’가 존재하는 증거가 있으며 SelfCipher가 이를 더 효과적으로 악용할 수 있는가?
- RQ5암호와 같은 비자연어를 다루도록 안전 정렬을 확장하는 방법은 무엇인가?
주요 결과
- CipherChat은 Turbo와 GPT-4 모두 중국어와 영어로 선택한 암호를 통해 대화를 가능하게 한다.
- 일부 인간형 암호(중국어의 Unicode, 영어의 ASCII)가 GPT-4의 안전 정렬을 무시하는 데 주목할 만한 성공을 보여준다.
- 자연어 역할극과 시연을 사용하는 SelfCipher가 높은 회피율을 달성하며 전통 암호보다 자주 우수한 성능을 보인다.
- 암호를 통해 프롬트될 때 GPT-4가 일반적으로 Turbo보다 더 높은 비안전 비율을 보이며, 특히 영어에서 그렇다.
- SelfCipher가 최고 성능을 달성하며, Crimes 도메인에서 GPT-4의 영어 비안전 비율이 70.9%에 이른다.
- 11개 도메인에 걸쳐 높은 용량의 모델일수록, 영어에서 비안전 응답이 중국어보다 더 자주 나타나며, 모욕, 불공정성, 정신 건강 도메인에서 두드러진 핫스팟이 확인된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.