QUICK REVIEW

[논문 리뷰] Conditioned Activation Transport for T2I Safety Steering

Maciej Chrabąszcz, Aleksander Szymczyk|arXiv (Cornell University)|2026. 03. 03.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

논문은 Conditioned Activation Transport(CAT)를 소개합니다. 비선형이고 기하학적 인지 activated steering 방법으로 Text-to-Image 안전성에 초점을 맞추며 독성을 최소화하면서 이미지 품질을 보존합니다. SafeSteerDataset을 사용해 비안전 활성 매니폴드를 학습하고 컨디셔닝을 통해 안전하지 않은 영역에서만 스티어링을 적용합니다.

ABSTRACT

Despite their impressive capabilities, current Text-to-Image (T2I) models remain prone to generating unsafe and toxic content. While activation steering offers a promising inference-time intervention, we observe that linear activation steering frequently degrades image quality when applied to benign prompts. To address this trade-off, we first construct SafeSteerDataset, a contrastive dataset containing 2300 safe and unsafe prompt pairs with high cosine similarity. Leveraging this data, we propose Conditioned Activation Transport (CAT), a framework that employs a geometry-based conditioning mechanism and nonlinear transport maps. By conditioning transport maps to activate only within unsafe activation regions, we minimize interference with benign queries. We validate our approach on two state-of-the-art architectures: Z-Image and Infinity. Experiments demonstrate that CAT generalizes effectively across these backbones, significantly reducing Attack Success Rate while maintaining image fidelity compared to unsteered generations. Warning: This paper contains potentially offensive text and images.

연구 동기 및 목표

선형 활성 스티어링이 안전 개입 중에 양성 이미지 품질을 보존하는 데 한계를 보이는지 식별한다.
다중 독성 범주에 걸쳐 비안전 활성 매니폴드를 매핑하기 위한 의미적으로 정렬된 SafeSteerDataset를 생성한다.
비선형 전달 맵과 기하학적으로 인식되는 컨디셔닝을 결합한 Conditioned Activation Transport(CAT)을 개발한다.
Diffusion Transformer(Z-Image) 및 AutoRegressive(Infinity) 아키텍처 전반에서 CAT의 일반화 성능을 시연한다.
백본과 컨디셔닝 전략 간의 안전성(ASR)과 이미지 충실도(CLIP) 간의 트레이드를 평가한다.

제안 방법

toxicity 기하를 포착하기 위해 23개의 하위 범주에 걸친 2300개의 안전-비안전 프롬프트 쌍으로 SafeSteerDataset를 구성한다.
비선형 MLP 전달 맵 Tθ와 컨디셔닝 마스크 C를 도입해 안전하지 않은 영역에서만 스티어링을 적용한다.
잔차 형태 z' = z + α·C(z̄)·(Tθ(z̄) − z̄)를 사용해 C = 0일 때 양성 출력을 보존한다.
정규화된 목적 함수 L(z_u, z_s) = ||z_s − T(z_u)||^2 + λ||z_s − T(z_s)||^2으로 비선형 전달 맵 Tθ를 학습한다.
안정성을 위한 정규화된 정밀도 매트릭스 추정을 포함하는 마할라노비스 기반 또는 OOD 컨디셔닝으로 기하학적으로 의식적인 컨디셔닝을 구현한다.
안전성(ASR)과 유용성(CLIP)을 COCO에서 안전성 및 유용성 지표로 사용하여 두 백본(Z-Image, Infinity)에서 스티어링을 평가한다.
컨디셔닝 여부에 따라 ActAdd, Linear-ACT 및 아핀 베이스라인과 CAT을 비교한다.

Figure 2 : Comparison of Transport Maps on Synthetic Manifolds. We evaluate ActAdd , Linear-ACT , and our MLP Transport against the Safe Target (Green). (1) Simple Gaussian: All methods successfully align with the target. (2) Variance Mismatch: ActAdd fails to rotate the distribution while Linear-AC

실험 결과

연구 질문

RQ1비선형 전달이 선형 방법보다 비안전 활성 매니폴드를 더 잘 포착하면서도 양성 이미지 품질을 해치지 않는가?
RQ2기하학적으로 의식 있는 컨디셔닝이 다양한 독성 범주 전반에서 스티어링을 안전하지 않은 영역으로 효과적으로 게이트하는가?
RQ3CAT와 컨디셔닝 전략이 서로 다른 T2I 백본(Z-Image와 Infinity)에서도 일반화되는가?
RQ4CAT의 안전성 증가(ASR)가 이미지 충실도(CLIP)와의 균형에서 선형 기반대비 어떤 무게를 가지는가?
RQ5다중모달(텍스트와 비전) 스티어링이 단일 모달 스티어링보다 안전성에 더 효과적인가?

주요 결과

CAT은 백본 전반에서 ASR을 크게 감소시킨다(예: Z-Image: ASR를 33.91%에서 6.96%로 감소시키고 CLIP 손실은 크지 않음; Infinity: ASR을 31.74%에서 4.78%로 감소시켰고 CLIP은 약 0.32 수준).
비선형 전달(MLP)이 선형 방법보다 복잡한 안전 매니폴드를 더 잘 모델링해 회전 및 비볼록 형태를 처리한다.
기하학적으로 의식 있는 컨디셔닝(Mahalanobis/ODE)이 최소-최대 경계 상자보다 우수하며 이미지 품질을 보존하면서 안전성을 유지한다.
텍스트와 비전 모달리티 모두에서 스티어링하면 더 나은 안전-유용성 균형을 얻으며(Text+Vision 구성은 낮은 ASR과 CLIP가 허용 가능한 수준으로 달성)
CAT은 선형 베이스라인 대비 비슷한 ASR 감소에서도 더 높은 CLIP 점수를 유지하여 이미지 품질과 의미체계를 보존한다.
표 머리글
표 행

Conditioned Activation Transport for T2I Safety Steering

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.