[論文レビュー] Improving Alignment and Robustness with Circuit Breakers
本論文は circuit breakers を導入する。内部表現を直接抑制して有害な出力をショートサーキットさせる表現ベースの防御を提案し、ユーティリティを大幅に犠牲にすることなく整合性と頑健性を向上させ、テキストおよびマルチモーダル設定での未知の攻撃にも一般化する。
AI systems can take harmful actions and are highly vulnerable to adversarial attacks. We present an approach, inspired by recent advances in representation engineering, that interrupts the models as they respond with harmful outputs with "circuit breakers." Existing techniques aimed at improving alignment, such as refusal training, are often bypassed. Techniques such as adversarial training try to plug these holes by countering specific attacks. As an alternative to refusal training and adversarial training, circuit-breaking directly controls the representations that are responsible for harmful outputs in the first place. Our technique can be applied to both text-only and multimodal language models to prevent the generation of harmful outputs without sacrificing utility -- even in the presence of powerful unseen attacks. Notably, while adversarial robustness in standalone image recognition remains an open challenge, circuit breakers allow the larger multimodal system to reliably withstand image "hijacks" that aim to produce harmful content. Finally, we extend our approach to AI agents, demonstrating considerable reductions in the rate of harmful actions when they are under attack. Our approach represents a significant step forward in the development of reliable safeguards to harmful behavior and adversarial attacks.
研究の動機と目的
- 出力層や入力層ではなく、内部表現レベルで有害な出力を直接抑制する防御を動機づける。
- 大幅なユーティリティ損失を伴わずに安全性を向上させる、汎用的で攻撃に依存しないメカニズムを開発する。
- テキストのみのLLMs、マルチモーダルモデル、AIエージェントに対して多様で未見の攻撃の下で効果を示す。
- この手法がマルチモーダル入力およびエージェントの安全性シナリオへと拡張可能であることを示す。
提案手法
- Representation Engineering (RepE) に基づき、有害出力表現と circuit breakers を結びつける。
- LoRA ベースの circuit-breaker モデル (LoRRA) を用いて Representation Rerouting (RR) を導入し、有害表現を生産的な方向から外れるよう再マップする。
- circuit-breaker データセットを Circuit Breaker Set と Retain Set に分割して、再マッピングと表現の保持を訓練する。
- 2つの損失を用いる:元の有害表現と circuit-broken 表現とのコサイン類似度を最小化する rerouting loss と、無害な表現を保持する retain loss。
- 早期に rerouting を強調し、後で retention を強化するスケジュールで組み合わせ損失を最適化する。
- LLMS (Mistral-7B-Instruct-v2, Llama-3-8B-Instruct)、マルチモーダルモデル (LLaVA-NeXT-Mistral-7B)、および AI エージェント(関数呼出しシナリオ)へ手法を適用する。)

実験結果
リサーチクエスチョン
- RQ1未見の攻撃下で有害出力の適合性を大きく低下させることなく低減できるか?
- RQ2 circuit breakers はマルチモーダル入力および敵対的な画像ベースの攻撃へ一般化できるか?
- RQ3このアプローチは AI エージェントの有害な行動を緩和しつつ、機能呼び出しの性能を維持できるか?
主な発見
- RR はテスト対象の LLM 全体で有害出力の適合性を平均約87%(Mistral)および90%(Llama-3)削減する。
- circuit-breaker 有効モデルは、提案されたテストで能力低下が最小で、性能低下は1%未満。
- マルチモーダル設定では、RR は white-box PGD 攻撃下で大きな安全性の向上をもたらし、MMM U および LLaVA-Wild の能力を元の約0.5%程度の範囲で維持する。
- Cygnet, circuit breakers を用いた Llama-3-8B-Instruct のファインチューンは、強力な攻撃下で有害出力を約2オーダー量程度低減する。
- RR は AI エージェントにも拡張され、敵対的圧力下で有害な関数呼び出しの適合性を著しく低減しつつ、Berkeley Function Calling Leaderboard の性能を維持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。