[논문 리뷰] DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis
DSS-GAN은 Mamba 백본을 갖춘 방향성 잠재 라우팅(Directional Latent Routing)을 도입해 클래스 조건 이미지 합성을 가능하게 하며, 다수의 데이터셋에서 StyleGAN2-ADA 대비 경쟁력 있는 FID/KID 및 더 나은 효율성을 달성합니다.
We present DSS-GAN, the first generative adversarial network to employ Mamba as a hierarchical generator backbone for noise-to-image synthesis. The central contribution is Directional Latent Routing (DLR), a novel conditioning mechanism that decomposes the latent vector into direction-specific subvectors, each jointly projected with a class embedding to produce a feature-wise affine modulation of the corresponding Mamba scan. Unlike conventional class conditioning that injects a global signal, DLR couples class identity and latent structure along distinct spatial axes of the feature map, applied consistently across all generative scales. DSS-GAN achieves improved FID, KID, and precision-recall scores compared to StyleGAN2-ADA across multiple tested datasets. Analysis of the latent space reveals that directional subvectors exhibit measurable specialization: perturbations along individual components produce structured, direction-correlated changes in the synthesized image.
연구 동기 및 목표
- 효율적이고 장거리 의존성 모델링을 통해 고품질의 제어 가능한 클래스 조건 이미지 합성을 촉진하고 가능하게 한다.
- 특정 공간 방향을 따라 잠재 구조와 클래스 아이덴티티를 결합하는 새로운 컨디셔닝 메커니즘을 도입한다.
- Mamba 기반 생성기가 상당히 적은 매개변수로 StyleGAN2-ADA를 능가하거나 동등하게 성능을 발휘함을 보여준다.
- 방향성 잠재 요소가 스케일에 따라 어떻게 특화되는지와 클래스 컨디셔닝이 방향성 라우팅과 어떻게 상호작용하는지 분석한다.
제안 방법
- 여러 스케일에 걸쳐 두 부분 잠재 벡터(base z_base 및 directional z_dir)를 처리하기 위해 계층적 Mamba 생성기 백본을 사용한다.
- Directional Latent Routing (DLR)을 도입한다: 방향별 z_dir로 조건화된 축별 아핀 모듈레이션과 Mamba 재귀 이전의 토큰 시퀀스에 영향을 주는 방향별 클래스 임베딩.
- 다른 방향(row/column/diagonal)으로 직렬화된 2D 특징 맵을 스캔/언스캔하여 방향성 토큰 시퀀스를 생성한다.
- Mamba 블록 이후 주입되는 고정된 해상도 일관 클래스 컨디셔닝 신호를 적용해 클래스 내부 다양성을 보존한다.
- 최상 해상도에 StyleGAN2에서 영감을 얻은 최종 정제 블록을 도입해 전반적 일관성과 국소적 디테일의 균형을 맞춘다.
- AFHQ, FFHQ, LSUN, CelebA 데이터셋에서 FID/KID 및 Precision/Recall/Density/Coverage로 평가하고 DSS-GAN을 StyleGAN2-ADA와 비교한다.
실험 결과
연구 질문
- RQ1Mamba 기반 생성기 백본이 클래스 조건 입력과 함께 노이즈-투-이미지 합성을 효과적으로 지원할 수 있는가?
- RQ2방향성 잠재 라우팅이 해상도에 걸쳐 샘플 품질과 다양성을 향상시키는 공간적으로 특화된 컨디셔닝을 가능하게 하는가?
- RQ3스캔 방향의 수와 클래스 정보의 통합이 기존 베이스라인과 비교할 때 현실감, 충실도, 다양성에 어떤 영향을 미치는가?
- RQ4클래스-조건 합성에서 방향성 구성 요소의 잠재공간이 제어성 및 해리성(disentanglement)에 미치는 잠재적 영향은 무엇인가?
주요 결과
| 모델 | 글로벌 FID | 글로벌 KID | 글로벌 P | 글로벌 R | 글로벌 D | 글로벌 C | Bedroom FID | Bedroom KID | Bedroom P | Bedroom R | Bedroom D | Bedroom C | Kitchen FID | Kitchen KID | Kitchen P | Kitchen R | Kitchen D | Kitchen C |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| StyleGAN2-ADA | 20.31 | 10.10 | .59 | .25 | .94 | .65 | 26.06 | 11.51 | .58 | .24 | .85 | .61 | 26.64 | 12.70 | .62 | .27 | .97 | .58 |
| DSS-GAN 3-dir | 23.22 | 13.23 | .52 | .28 | .62 | .67 | 25.16 | 13.45 | .52 | .28 | .62 | .67 | 31.29 | 20.28 | .52 | .28 | .62 | .67 |
| DSS-GAN 2-dir (row+column) | 17.79 | 8.79 | .64 | .20 | .88 | .75 | 21.56 | 9.61 | .59 | .26 | .78 | .76 | 23.32 | 12.30 | .71 | .18 | .97 | .78 |
| DSS-GAN 1-dir (row) | 20.28 | 11.93 | .55 | .30 | .66 | .73 | 21.39 | 10.06 | .55 | .35 | .69 | .79 | 28.78 | 19.35 | .59 | .27 | .62 | .72 |
| DSS-GAN 1-dir (column) | 20.30 | 10.73 | .58 | .23 | .65 | .68 | 24.97 | 11.95 | .58 | .24 | .69 | .69 | 25.83 | 14.43 | .60 | .18 | .69 | .69 |
- DSS-GAN은 여러 데이터셋에서 StyleGAN2-ADA에 비해 동등하거나 우수한 FID, KID 및 정밀도-재현율을 달성하면서 매개변수 수는 3배 이상 적게 사용한다.
- Directional Latent Routing은 방향별 특화성을 유도한다: 방향별 부분벡터를 따라의 섭동이 생성 이미지에 구조적이고 방향-상관된 변화를 만들어낸다.
- DLR 블록 내의 180도 회전으로 그래디언트 흐름과 학습 안정성이 향상되며 출력 배치를 변경하지 않는다.
- 학습 중 방향별 컨디셔닝 및 라우팅 가중치가 균일성에서 벗어나며, 해상도 의존적 특화가 스캔 방향(열, 행, 대각선)에 대해 학습되었음을 나타낸다.
- 제거 실험은 최상 해상도에서 StyleGAN2에서 영감을 받은 CNN 블록이 최종 고주파 정제에 가장 잘 어울리며 전반적 응집성과 국소 디테일의 균형를 이룬다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.