[论文解读] Conditioned Activation Transport for T2I Safety Steering
论文引入 Conditioned Activation Transport (CAT),一种非线性、几何感知的激活引导方法,用于文本到图像安全,最小化有毒性同时保留图像质量;使用 SafeSteerDataset 学习不安全激活流形,在不安全区域才进行引导。
Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes effectively across these backbones, significantly reducing Attack Success Rate while maintaining image fidelity compared to unsteered generations. Warning: This paper contains potentially offensive text and images.
研究动机与目标
- 识别线性激活引导在安全干预中对保持良性图像质量的局限性。
- 创建一个语义对齐的 SafeSteerDataset,将跨多 toxicity 类别的不安全激活流形映射出来。
- 开发 Conditioned Activation Transport (CAT),将非线性传输映射与几何感知条件相结合。
- 在 Diffusion Transformer (Z-Image) 和 AutoRegressive (Infinity) 架构上证明 CAT 的泛化能力。
- 评估在不同骨干网络和条件策略下,安全性(ASR)与图像保真度(CLIP)的权衡。
提出的方法
- 构建包含 2300 对 safe-unsafe 提示对的 SafeSteerDataset,涵盖 23 个子类别以捕捉毒性几何。
- 引入 CAT,使用非线性 MLP 传输映射 Tθ 与条件掩码 C,只在不安全区域应用引导。
- 采用残差形式 z' = z + α·C(z̄)·(Tθ(z̄) − z̄) 以在 C=0 时保持良性输出。
- 用正则化目标 L(z_u, z_s) = ||z_s − T(z_u)||^2 + λ||z_s − T(z_s)||^2 训练非线性传输映射 Tθ。
- 通过马氏距离基础的或 OOD 条件实现几何感知条件,并对精度矩阵进行正则化估计以稳定性。
- 在两个骨干(Z-Image 和 Infinity)上评估引导,使用 ASR 和 COCO 上的 CLIP 作为安全与效用指标。
- 将 CAT 与 ActAdd、线性 ACT 及仿射基线在有无条件下进行对比。

实验结果
研究问题
- RQ1非线性传输是否比线性方法更好地捕捉不安全激活流形,同时不损害良性图像质量?
- RQ2几何感知条件是否能够在不同毒性类别中有效地对引导进行门控至不安全区域?
- RQ3CAT 及条件策略是否在不同的 T2I 骨干(Z-Image 与 Infinity)上具有泛化性?
- RQ4与线性基线相比,CAT 的安全性提升(ASR)与图像保真度(CLIP)之间的权衡如何?
- RQ5多模态(文本与视觉)引导是否比单模态更有效地提升安全性?
主要发现
- CAT 在各骨干上显著降低 ASR(例如:Z-Image 从 33.91% 降至 6.96%,在 CLIP 方面未产生重大损失;Infinity:ASR 从 31.74% 降至 4.78%,CLIP ~0.32)。
- 非线性传输(MLP)比线性方法更好地建模复杂的安全流形,能够处理旋转和非凸形状。
- 几何感知条件(马氏距离/ODE)优于最小-最大边界框,在保持安全性的同时保留图像质量。
- 文本与视觉模态同时引导可取得最佳的安全-效用平衡(Text+Vision 配置在 CLIP 可接受的前提下实现更低的 ASR)。
- CAT 在可比的 ASR 降幅下保持比线性基线更高的 CLIP 分数,表明对图像保真度和语义的保留较好。
- Table Headers
- Table Rows

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。