QUICK REVIEW

[논문 리뷰] DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis

Aleksander Ogonowski, Konrad Klimaszewski|arXiv (Cornell University)|2026. 03. 18.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

DSS-GAN은 Mamba 백본을 갖춘 방향성 잠재 라우팅(Directional Latent Routing)을 도입해 클래스 조건 이미지 합성을 가능하게 하며, 다수의 데이터셋에서 StyleGAN2-ADA 대비 경쟁력 있는 FID/KID 및 더 나은 효율성을 달성합니다.

ABSTRACT

We present DSS-GAN, the first generative adversarial network to employ Mamba as a hierarchical generator backbone for noise-to-image synthesis. The central contribution is Directional Latent Routing (DLR), a novel conditioning mechanism that decomposes the latent vector into direction-specific subvectors, each jointly projected with a class embedding to produce a feature-wise affine modulation of the corresponding Mamba scan. Unlike conventional class conditioning that injects a global signal, DLR couples class identity and latent structure along distinct spatial axes of the feature map, applied consistently across all generative scales. DSS-GAN achieves improved FID, KID, and precision-recall scores compared to StyleGAN2-ADA across multiple tested datasets. Analysis of the latent space reveals that directional subvectors exhibit measurable specialization: perturbations along individual components produce structured, direction-correlated changes in the synthesized image.

연구 동기 및 목표

효율적이고 장거리 의존성 모델링을 통해 고품질의 제어 가능한 클래스 조건 이미지 합성을 촉진하고 가능하게 한다.
특정 공간 방향을 따라 잠재 구조와 클래스 아이덴티티를 결합하는 새로운 컨디셔닝 메커니즘을 도입한다.
Mamba 기반 생성기가 상당히 적은 매개변수로 StyleGAN2-ADA를 능가하거나 동등하게 성능을 발휘함을 보여준다.
방향성 잠재 요소가 스케일에 따라 어떻게 특화되는지와 클래스 컨디셔닝이 방향성 라우팅과 어떻게 상호작용하는지 분석한다.

제안 방법

여러 스케일에 걸쳐 두 부분 잠재 벡터(base z_base 및 directional z_dir)를 처리하기 위해 계층적 Mamba 생성기 백본을 사용한다.
Directional Latent Routing (DLR)을 도입한다: 방향별 z_dir로 조건화된 축별 아핀 모듈레이션과 Mamba 재귀 이전의 토큰 시퀀스에 영향을 주는 방향별 클래스 임베딩.
다른 방향(row/column/diagonal)으로 직렬화된 2D 특징 맵을 스캔/언스캔하여 방향성 토큰 시퀀스를 생성한다.
Mamba 블록 이후 주입되는 고정된 해상도 일관 클래스 컨디셔닝 신호를 적용해 클래스 내부 다양성을 보존한다.
최상 해상도에 StyleGAN2에서 영감을 얻은 최종 정제 블록을 도입해 전반적 일관성과 국소적 디테일의 균형을 맞춘다.
AFHQ, FFHQ, LSUN, CelebA 데이터셋에서 FID/KID 및 Precision/Recall/Density/Coverage로 평가하고 DSS-GAN을 StyleGAN2-ADA와 비교한다.

실험 결과

연구 질문

RQ1Mamba 기반 생성기 백본이 클래스 조건 입력과 함께 노이즈-투-이미지 합성을 효과적으로 지원할 수 있는가?
RQ2방향성 잠재 라우팅이 해상도에 걸쳐 샘플 품질과 다양성을 향상시키는 공간적으로 특화된 컨디셔닝을 가능하게 하는가?
RQ3스캔 방향의 수와 클래스 정보의 통합이 기존 베이스라인과 비교할 때 현실감, 충실도, 다양성에 어떤 영향을 미치는가?
RQ4클래스-조건 합성에서 방향성 구성 요소의 잠재공간이 제어성 및 해리성(disentanglement)에 미치는 잠재적 영향은 무엇인가?

주요 결과

모델	글로벌 FID	글로벌 KID	글로벌 P	글로벌 R	글로벌 D	글로벌 C	Bedroom FID	Bedroom KID	Bedroom P	Bedroom R	Bedroom D	Bedroom C	Kitchen FID	Kitchen KID	Kitchen P	Kitchen R	Kitchen D	Kitchen C
StyleGAN2-ADA	20.31	10.10	.59	.25	.94	.65	26.06	11.51	.58	.24	.85	.61	26.64	12.70	.62	.27	.97	.58
DSS-GAN 3-dir	23.22	13.23	.52	.28	.62	.67	25.16	13.45	.52	.28	.62	.67	31.29	20.28	.52	.28	.62	.67
DSS-GAN 2-dir (row+column)	17.79	8.79	.64	.20	.88	.75	21.56	9.61	.59	.26	.78	.76	23.32	12.30	.71	.18	.97	.78
DSS-GAN 1-dir (row)	20.28	11.93	.55	.30	.66	.73	21.39	10.06	.55	.35	.69	.79	28.78	19.35	.59	.27	.62	.72
DSS-GAN 1-dir (column)	20.30	10.73	.58	.23	.65	.68	24.97	11.95	.58	.24	.69	.69	25.83	14.43	.60	.18	.69	.69

DSS-GAN은 여러 데이터셋에서 StyleGAN2-ADA에 비해 동등하거나 우수한 FID, KID 및 정밀도-재현율을 달성하면서 매개변수 수는 3배 이상 적게 사용한다.
Directional Latent Routing은 방향별 특화성을 유도한다: 방향별 부분벡터를 따라의 섭동이 생성 이미지에 구조적이고 방향-상관된 변화를 만들어낸다.
DLR 블록 내의 180도 회전으로 그래디언트 흐름과 학습 안정성이 향상되며 출력 배치를 변경하지 않는다.
학습 중 방향별 컨디셔닝 및 라우팅 가중치가 균일성에서 벗어나며, 해상도 의존적 특화가 스캔 방향(열, 행, 대각선)에 대해 학습되었음을 나타낸다.
제거 실험은 최상 해상도에서 StyleGAN2에서 영감을 받은 CNN 블록이 최종 고주파 정제에 가장 잘 어울리며 전반적 응집성과 국소 디테일의 균형를 이룬다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.