Skip to main content
QUICK REVIEW

[論文レビュー] Conditioned Activation Transport for T2I Safety Steering

Maciej Chrabąszcz, Aleksander Szymczyk|arXiv (Cornell University)|Mar 3, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

この論文は、SafeSteerDatasetを用いて unsafe activation manifold を学習し、 unsafe な領域でのみ steering を適用することで、毒性を抑制しつつ画像品質を保持する nonlinear, geometry-aware activation steering メソッドである Conditioned Activation Transport (CAT) を提案する。

ABSTRACT

Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes effectively across these backbones, significantly reducing Attack Success Rate while maintaining image fidelity compared to unsteered generations. Warning: This paper contains potentially offensive text and images.

研究の動機と目的

  • 安全介入時に benign な画像品質を保持するための線形活性ステアリングの限界を特定する。
  • 複数の毒性カテゴリにわたる unsafe activation manifold をマッピングする semantically aligned な SafeSteerDataset を作成する。
  • 非線形輸送マップと幾何学認識的条件付けを組み合わせた Conditioned Activation Transport (CAT) を開発する。
  • Diffusion Transformer (Z-Image) と AutoRegressive (Infinity) アーキテクチャ間での CAT の一般化を示す。
  • バックボーンと条件付け戦略を跨いだ安全性(ASR)と画像忠実度(CLIP)間のトレードオフを評価する。

提案手法

  • 毒性幾何を捉えるために 2300 の safe-unsafe プロンプト対を 23 サブカテゴリで含む SafeSteerDataset を構築する。
  • 非線形 MLP 輸送マップ Tθ と条件付きマスク C を導入し、 unsafe な領域でのみ steering を適用する。
  • 回帰形 z' = z + α·C(z̄)·(Tθ(z̄) − z̄) の残差形式を用いて C = 0 の場合には benign な出力を保持する。
  • 正則化目的関数 L(z_u, z_s) = ||z_s − T(z_u)||^2 + λ||z_s − T(z_s)||^2 で非線形輸送マップ Tθ を訓練する。
  • 幾何学認識的条件付けを Mahalanobis ベースまたは OOD 条件付けで実装し、安定性のために正則化された精度行列推定を行う。
  • 二つのバックボーン(Z-Image と Infinity)で ASR と COCO 上の CLIP を安全性と実用性の指標として評価する。
  • 条件付け有無を問わず、CAT を ActAdd、Linear-ACT、アフィンのベースラインと比較する。
Figure 2 : Comparison of Transport Maps on Synthetic Manifolds. We evaluate ActAdd , Linear-ACT , and our MLP Transport against the Safe Target (Green). (1) Simple Gaussian: All methods successfully align with the target. (2) Variance Mismatch: ActAdd fails to rotate the distribution while Linear-AC
Figure 2 : Comparison of Transport Maps on Synthetic Manifolds. We evaluate ActAdd , Linear-ACT , and our MLP Transport against the Safe Target (Green). (1) Simple Gaussian: All methods successfully align with the target. (2) Variance Mismatch: ActAdd fails to rotate the distribution while Linear-AC

実験結果

リサーチクエスチョン

  • RQ1非線形輸送は、線形手法より unsafe activation manifolds をより良く捉えつつ benign な画像品質を損なわないのか。
  • RQ2幾何学認識的条件付けは、多様な毒性カテゴリにわたってステアリングを unsafe な領域に効果的にゲートできるか。
  • RQ3CAT と条件付け戦略は、異なる T2I バックボーン(Z-Image と Infinity)間で一般化するか。
  • RQ4安全性の向上(ASR)と画像忠実度(CLIP)のトレードオフは、線形ベースラインと比較してどのようになるか。
  • RQ5マルチモーダル(テキストと視覚)ステアリングは、単一モーダルより安全性に有効か。

主な発見

  • CAT はバックボーンをまたいで ASR を大幅に低減(例:Z-Image: ASR を 33.91% から 6.96% に、CLIP の大幅な損失なし; Infinity: ASR を 31.74% から 4.78% に、CLIP は 約 0.32 程度)。”
  • 非線形輸送(MLP)は、回転や非凸形状を含む複雑な安全マニフォールドを線形手法よりもうまくモデル化する。
  • 幾何学認識的条件付け(Mahalanobis/ODE)は、最小-最大の境界ボックスよりも優れており、画像品質を保持しつつ安全性を維持する。
  • テキストとビジョンの両モダリティでのステアリングは、安全性と実用性のバランスを最も良くする(Text+Vision 設定は低い ASR を達成し、CLIP は許容範囲内)。
  • CAT は、同等の ASR 削減で線形ベースラインより高い CLIP スコアを維持し、画像の忠実度と意味論を保持している。
  • Table Headers
  • Table Rows
Conditioned Activation Transport for T2I Safety Steering

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。