[論文レビュー] GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
この論文はCipherChatを紹介する。暗号で対話することでLLMの安全性対策を回避できることを示し、SelfCipherが特に強力な回避をもたらす。
Safety lies at the core of the development of Large Language Models (LLMs). There is ample work on aligning LLMs with human ethics and preferences, including data filtering in pretraining, supervised fine-tuning, reinforcement learning from human feedback, and red teaming, etc. In this study, we discover that chat in cipher can bypass the safety alignment techniques of LLMs, which are mainly conducted in natural languages. We propose a novel framework CipherChat to systematically examine the generalizability of safety alignment to non-natural languages -- ciphers. CipherChat enables humans to chat with LLMs through cipher prompts topped with system role descriptions and few-shot enciphered demonstrations. We use CipherChat to assess state-of-the-art LLMs, including ChatGPT and GPT-4 for different representative human ciphers across 11 safety domains in both English and Chinese. Experimental results show that certain ciphers succeed almost 100% of the time to bypass the safety alignment of GPT-4 in several safety domains, demonstrating the necessity of developing safety alignment for non-natural languages. Notably, we identify that LLMs seem to have a ''secret cipher'', and propose a novel SelfCipher that uses only role play and several demonstrations in natural language to evoke this capability. SelfCipher surprisingly outperforms existing human ciphers in almost all cases. Our code and data will be released at https://github.com/RobustNLP/CipherChat.
研究の動機と目的
- 自然言語で学習した安全性アラインメントが非自然言語(暗号)にも一般化するかを評価する。
- 暗号化入力と出力でLLMの安全性を評価するための枠組み(CipherChat)を開発する。
- どの暗号タイプとプロンプト構造が最も先端のLLMsからunsafeな応答を効果的に引き出すかを特定する。
- LLMsには潜在的な“秘密の暗号”が存在するか、そしてそれを喚起して安全性を回避できるかを探る。
- 非自然言語を含む安全性アラインメントを強化するための指針を提供する。
提案手法
- 三部構成のシステムプロンプト(振る舞いの割り当て、暗号教育、暗号化された unsafe Demonstrations)を構築して、LLMを暗号モードで動作させる。
- 複数の暗号(GBK、ASCII、UTF、Unicode、モールス、Atbash、Caesar、SelfCipher)を使って入力指示を暗号化し、LLMsに供給する。
- ルールベースとGPT-4ベースの復号器を用いて、暗号出力を自然言語に翻訳して評価する。
- CipherChat設定で11の安全ドメインにわたり、英語と中国語でLLMs(GPT-3.5-TurboとGPT-4)の安全性をプロンプトして評価する。
- unsafe outputs を手動および自動でフィルタ・分類し、暗号と言語を横断して比較する。
- システムプロンプト、 unsafe demonstrations、demonstrations が安全回避に与える影響を分析する。
実験結果
リサーチクエスチョン
- RQ1CipherChatは、言語を跨ぐ暗号プロンプトを介してLLMsと対話することを可能にするか?
- RQ2CipherChatは、特にGPT-4において、異なる暗号を用いてLLMsの安全性アラインメントを回避できるか?
- RQ3システムプロンプト、unsafe demonstrations、暗号タイプなど、CipherChatの回避の有効性に影響を与える要因は?
- RQ4LLMsに潜在的な“秘密の暗号”の証拠はあり、SelfCipherはそれをより効果的に利用できるか?
- RQ5非自然言語(暗号)の安全性アラインメントを拡張すべきか?
主な発見
- CipherChatは、英語と中国語で選択した暗号を介してTurboとGPT-4の両方が対話できる。
- 特定の人間用暗号(中国語はUnicode、英語はASCII)により、GPT-4の安全性アラインメントを顕著な成功で回避できる。
- SelfCipherは自然言語の役割演習とデモンストレーションを用いることで高い回避率を達成し、伝統的な暗号よりしばしば上回る。
- GPT-4は一般に暗号を介してプロンプトされた場合、Turboより unsafe率が高い傾向がある、特に英語で。
- SelfCipherが最良の性能を発揮し、GPT-4の英語でCrimesドメインにおけるunsafe率は70.9%。」,
- table_headers: [],
- table_rows: []} } <!-- note: punctuation adjusted to valid JSON -->
- 注意:上記のJSONは正しく整形されていませんでした。正しい形式で再掲します。
- titleの後の説明を修正済みの完全なJSONを以下に提供します:
- {
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。