[논문 리뷰] CASL: Concept-Aligned Sparse Latents for Interpreting Diffusion Models
CASL은 확산 모델의 희소 잠재 차원을 인간의 의미론적 개념과 일치시키는 지도 학습 프레임워크를 제시하고, CASL-Steer와 새로운 Editing Precision Ratio를 통해 이를 검증합니다.
Internal activations of diffusion models encode rich semantic information, but interpreting such representations remains challenging. While Sparse Autoencoders (SAEs) have shown promise in disentangling latent representations, existing SAE-based methods for diffusion model understanding rely on unsupervised approaches that fail to align sparse features with human-understandable concepts. This limits their ability to provide reliable semantic control over generated images. We introduce CASL (Concept-Aligned Sparse Latents), a supervised framework that aligns sparse latent dimensions of diffusion models with semantic concepts. CASL first trains an SAE on frozen U-Net activations to obtain disentangled latent representations, and then learns a lightweight linear mapping that associates each concept with a small set of relevant latent dimensions. To validate the semantic meaning of these aligned directions, we propose CASL-Steer, a controlled latent intervention that shifts activations along the learned concept axis. Unlike editing methods, CASL-Steer is used solely as a causal probe to reveal how concept-aligned latents influence generated content. We further introduce the Editing Precision Ratio (EPR), a metric that jointly measures concept specificity and the preservation of unrelated attributes. Experiments show that our method achieves superior editing precision and interpretability compared to existing approaches. To the best of our knowledge, this is the first work to achieve supervised alignment between latent representations and semantic concepts in diffusion models.
연구 동기 및 목표
- 확산 모델 내부 해석을 인간 개념과 연결하여 희소 잠재 유닛을 해석하도록Motivate 하다
- SAE 표현의 지도 정렬을 통해 개념 정렬 희소 잠재를 학습하도록 CASL을 개발
- 정렬된 방향의 의미적 영향을 검증하기 위한 인과적_probe로서 CASL-Steer를 제공
- 대상 개념의 편집 강도와 무관한 속성 보존을 함께 정량화하기 위한 EPR을 도입
제안 방법
- 고정된 U-Net 활성화에서 SAE를 학습시켜 해리된 희소 잠재 공간 Z를 얻는다
- SAE 인코더를 고정하고 각 개념을 소수의 잠재 차원 집합에 연결하는 경량 선형 매핑을 학습한다 via Delta h = WΔ z + bΔ
- Δh를 h에 더해 활성화를 편집하고 DDIM 역전으로 편집 이미지를 생성하여 평가한다
- DiffusionCLIP 기반 손실과 L1 재구성 항을 사용해 편집을 대상 개념과 정렬한다
- CASL-Steer는 상위-k 개념 정렬 잠재 방향을 구성하고 이를 탐침 메커니즘으로써 의미적 효과를 평가한다
- 대상 속성 변화에 대한 비대상 속성 변화의 비율을 측정하는 Editing Precision Ratio(EPR)를 제안한다
실험 결과
연구 질문
- RQ1감독 학습 설정에서 학습된 희소 잠재 방향이 확산 모델에서 인간 정의 의미론 개념과 정렬될 수 있는가?
- RQ2개념 정렬 잠재 방향이 국소적이고 해리된 방식으로 생성 콘텐츠에 인과적으로 영향을 미치는가?
- RQ3CASL 프레임워크가 기존 방법에 비해 의도치 않은 변화가 적은 정확한 의미 편집을 가능하게 하는가?
- RQ4제안된 EPR 지표가 개념 정렬과 편집 정밀도를 평가하는 데 얼마나 효과적인가?
주요 결과
- CASL은 의미 정렬 희소 잠재 방향을 달성하여 의도된 편집을 타깃 의미로 제한하고 주변 변화는 최소화합니다.
- CASL-Steer는 상향-정렬 방향을 따라 편집이 의도된 속성에 대해 데이터셋(CelebA-HQ, AFHQ-Dog, LSUN-Church) 전반에서 신뢰성 있게 영향을 준다는 것을 보여주는 인과적 탐침을 제공합니다.
- CASL은 다른 편집 방법들보다 더 높은 Editing Precision Ratio(EPR)를 달성하여 정밀성과 해석 가능성을 시사합니다.
- SVM 탐침은 상위-k 정렬 잠재 유닛을 사용한 개념 분리성이 높음을 보여주고, 각 개념당 16개 유닛을 사용할 때 정확도가 거의 완벽에 가깝습니다.
- SAE 표현은 재구성 품질과 희소성의 균형을 이루며, 해석 가능한 잠재 기저를 지지합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.