Skip to main content
QUICK REVIEW

[논문 리뷰] DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis

Aleksander Ogonowski, Konrad Klimaszewski|arXiv (Cornell University)|2026. 03. 18.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

DSS-GAN은 Mamba 백본을 갖춘 방향성 잠재 라우팅(Directional Latent Routing)을 도입해 클래스 조건 이미지 합성을 가능하게 하며, 다수의 데이터셋에서 StyleGAN2-ADA 대비 경쟁력 있는 FID/KID 및 더 나은 효율성을 달성합니다.

ABSTRACT

We present DSS-GAN, the first generative adversarial network to employ Mamba as a hierarchical generator backbone for noise-to-image synthesis. The central contribution is Directional Latent Routing (DLR), a novel conditioning mechanism that decomposes the latent vector into direction-specific subvectors, each jointly projected with a class embedding to produce a feature-wise affine modulation of the corresponding Mamba scan. Unlike conventional class conditioning that injects a global signal, DLR couples class identity and latent structure along distinct spatial axes of the feature map, applied consistently across all generative scales. DSS-GAN achieves improved FID, KID, and precision-recall scores compared to StyleGAN2-ADA across multiple tested datasets. Analysis of the latent space reveals that directional subvectors exhibit measurable specialization: perturbations along individual components produce structured, direction-correlated changes in the synthesized image.

연구 동기 및 목표

  • 효율적이고 장거리 의존성 모델링을 통해 고품질의 제어 가능한 클래스 조건 이미지 합성을 촉진하고 가능하게 한다.
  • 특정 공간 방향을 따라 잠재 구조와 클래스 아이덴티티를 결합하는 새로운 컨디셔닝 메커니즘을 도입한다.
  • Mamba 기반 생성기가 상당히 적은 매개변수로 StyleGAN2-ADA를 능가하거나 동등하게 성능을 발휘함을 보여준다.
  • 방향성 잠재 요소가 스케일에 따라 어떻게 특화되는지와 클래스 컨디셔닝이 방향성 라우팅과 어떻게 상호작용하는지 분석한다.

제안 방법

  • 여러 스케일에 걸쳐 두 부분 잠재 벡터(base z_base 및 directional z_dir)를 처리하기 위해 계층적 Mamba 생성기 백본을 사용한다.
  • Directional Latent Routing (DLR)을 도입한다: 방향별 z_dir로 조건화된 축별 아핀 모듈레이션과 Mamba 재귀 이전의 토큰 시퀀스에 영향을 주는 방향별 클래스 임베딩.
  • 다른 방향(row/column/diagonal)으로 직렬화된 2D 특징 맵을 스캔/언스캔하여 방향성 토큰 시퀀스를 생성한다.
  • Mamba 블록 이후 주입되는 고정된 해상도 일관 클래스 컨디셔닝 신호를 적용해 클래스 내부 다양성을 보존한다.
  • 최상 해상도에 StyleGAN2에서 영감을 얻은 최종 정제 블록을 도입해 전반적 일관성과 국소적 디테일의 균형을 맞춘다.
  • AFHQ, FFHQ, LSUN, CelebA 데이터셋에서 FID/KID 및 Precision/Recall/Density/Coverage로 평가하고 DSS-GAN을 StyleGAN2-ADA와 비교한다.

실험 결과

연구 질문

  • RQ1Mamba 기반 생성기 백본이 클래스 조건 입력과 함께 노이즈-투-이미지 합성을 효과적으로 지원할 수 있는가?
  • RQ2방향성 잠재 라우팅이 해상도에 걸쳐 샘플 품질과 다양성을 향상시키는 공간적으로 특화된 컨디셔닝을 가능하게 하는가?
  • RQ3스캔 방향의 수와 클래스 정보의 통합이 기존 베이스라인과 비교할 때 현실감, 충실도, 다양성에 어떤 영향을 미치는가?
  • RQ4클래스-조건 합성에서 방향성 구성 요소의 잠재공간이 제어성 및 해리성(disentanglement)에 미치는 잠재적 영향은 무엇인가?

주요 결과

모델글로벌 FID글로벌 KID글로벌 P글로벌 R글로벌 D글로벌 CBedroom FIDBedroom KIDBedroom PBedroom RBedroom DBedroom CKitchen FIDKitchen KIDKitchen PKitchen RKitchen DKitchen C
StyleGAN2-ADA20.3110.10.59.25.94.6526.0611.51.58.24.85.6126.6412.70.62.27.97.58
DSS-GAN 3-dir23.2213.23.52.28.62.6725.1613.45.52.28.62.6731.2920.28.52.28.62.67
DSS-GAN 2-dir (row+column)17.798.79.64.20.88.7521.569.61.59.26.78.7623.3212.30.71.18.97.78
DSS-GAN 1-dir (row)20.2811.93.55.30.66.7321.3910.06.55.35.69.7928.7819.35.59.27.62.72
DSS-GAN 1-dir (column)20.3010.73.58.23.65.6824.9711.95.58.24.69.6925.8314.43.60.18.69.69
  • DSS-GAN은 여러 데이터셋에서 StyleGAN2-ADA에 비해 동등하거나 우수한 FID, KID 및 정밀도-재현율을 달성하면서 매개변수 수는 3배 이상 적게 사용한다.
  • Directional Latent Routing은 방향별 특화성을 유도한다: 방향별 부분벡터를 따라의 섭동이 생성 이미지에 구조적이고 방향-상관된 변화를 만들어낸다.
  • DLR 블록 내의 180도 회전으로 그래디언트 흐름과 학습 안정성이 향상되며 출력 배치를 변경하지 않는다.
  • 학습 중 방향별 컨디셔닝 및 라우팅 가중치가 균일성에서 벗어나며, 해상도 의존적 특화가 스캔 방향(열, 행, 대각선)에 대해 학습되었음을 나타낸다.
  • 제거 실험은 최상 해상도에서 StyleGAN2에서 영감을 받은 CNN 블록이 최종 고주파 정제에 가장 잘 어울리며 전반적 응집성과 국소 디테일의 균형를 이룬다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.