QUICK REVIEW

[論文レビュー] TRYLOCK: Defense-in-Depth Against LLM Jailbreaks via Layered Preference and Representation Engineering

Scott Thornton|arXiv (Cornell University)|Jan 6, 2026

Adversarial Robustness in Machine Learning被引用数 0

ひとこと要約

TRYLOCKは四層の防御-in-深度アーキテクチャを実装し、DPO重み安全性、RepE活性化空間の Steering、適応型サイドカ classifiers、入力正準化を組み合わせてLLMのジャailbreakに対抗し、Mistral-7B-Instructで攻撃成功率を88.0%削減を達成します。

ABSTRACT

Large language models remain vulnerable to jailbreak attacks, and single-layer defenses often trade security for usability. We present TRYLOCK, the first defense-in-depth architecture that combines four heterogeneous mechanisms across the inference stack: weight-level safety alignment via DPO, activation-level control via Representation Engineering (RepE) steering, adaptive steering strength selected by a lightweight sidecar classifier, and input canonicalization to neutralize encoding-based bypasses. On Mistral-7B-Instruct evaluated against a 249-prompt attack set spanning five attack families, TRYLOCK achieves 88.0% relative ASR reduction (46.5% to 5.6%), with each layer contributing unique coverage: RepE blocks 36% of attacks that bypass DPO alone, while canonicalization catches 14% of encoding attacks that evade both. We discover a non-monotonic steering phenomenon -- intermediate strength (alpha=1.0) degrades safety below baseline -- and provide mechanistic hypotheses explaining RepE-DPO interference. The adaptive sidecar reduces over-refusal from 60% to 48% while maintaining identical attack defense, demonstrating that security and usability need not be mutually exclusive. We release all components -- trained adapters, steering vectors, sidecar classifier, preference pairs, and complete evaluation methodology -- enabling full reproducibility.

研究の動機と目的

防御の深さによる堅牢なLLM安全性を単一層の防御より促進する。
推論スタック全体に四つの異種機構を統合して多様なジャailベクターを遮断する。
各層が提供する補完的で冗長性のない保護を定量化する。
セキュリティと使いやすさのバランスを取る適応型 steering を実証する。
再現可能性を高めるために完全なオープンリリース成果物を提供する。

提案手法

DPOベースの重み安全性、RepE活性化空間 steering、サイドカー脅威分類器、入力正準化を統合した統一防御スタックを導入する。
安全な回答を unsafe な回答より優先させる Direct Preference Optimization (DPO) を用いて LoRA アダプターを訓練する。
推論時に対照的な safe/unsafe プロンプトから導出した活性化空間 steering ベクトルを計算・適用する。
軽量なサイドカ classifier を用いて脅威レベルを割り当て、入力ごとに steering 強度(alpha)を選択する。
エンコードベースの回避を中和しロバスト性を向上させるために入力正準化を適用する。
完全な再現性を可能にするためにすべての構成要素と評価データを公開する。

実験結果

リサーチクエスチョン

RQ1多層防御はLLMジャailbreakを防ぐ際に単一層の防御より優れているか。
RQ2重みレベル・活性化レベル・入力レベルの防御は相互作用し、補完的か。
RQ3適応型 steering が安全性と使いやすさに与える影響は。
RQ4データセットとアダプターのオープンリリースは層状LLM安全性研究の再現性を高めるか。

主な発見

TRYLOCKはMistral-7B-Instruct-v0.3において相対的ASR削減を88.0%達成（ベースライン46.5%からTRYLOCKで5.6%）
RepEはDPOのみを回避する攻撃の36%の固有カバレッジに寄与。
canonicalization は RepE と DPO の両方を回避するエンコーディング攻撃の14%を捕らえる。
中間的な steering 強度(alpha = 1.0) は安全性をベースライン以下に低下させ、非単調な steering ダイナミクスを示す。
adaptive sidecar classification は過 refusals を60%から48%へ低減し、同一の攻撃防御（8.0% ASR）を維持。
著者は再現性のためにすべての構成要素と評価手法を公開する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。