[论文解读] DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis
DSS-GAN 引入带有 Mamba 骨干的方向性潜在路由(Directional Latent Routing)以实现类别条件图像合成,在多个数据集上实现与 FID/KID 相当的表现,并在效率方面优于 StyleGAN2-ADA。
We present DSS-GAN, the first generative adversarial network to employ Mamba as a hierarchical generator backbone for noise-to-image synthesis. The central contribution is Directional Latent Routing (DLR), a novel conditioning mechanism that decomposes the latent vector into direction-specific subvectors, each jointly projected with a class embedding to produce a feature-wise affine modulation of the corresponding Mamba scan. Unlike conventional class conditioning that injects a global signal, DLR couples class identity and latent structure along distinct spatial axes of the feature map, applied consistently across all generative scales. DSS-GAN achieves improved FID, KID, and precision-recall scores compared to StyleGAN2-ADA across multiple tested datasets. Analysis of the latent space reveals that directional subvectors exhibit measurable specialization: perturbations along individual components produce structured, direction-correlated changes in the synthesized image.
研究动机与目标
- 激发并实现高质量、可控的类别条件图像合成,具备高效的长程依赖建模能力。
- 引入一种将潜在结构与类别身份在不同空间方向耦合的新的条件化机制。
- 展示基于 Mamba 的生成器在显著减少参数量的情况下可以超越或匹配 StyleGAN2-ADA。
- 分析在不同尺度上方向性潜在分量的专业化,以及类别条件如何与方向性路由相互作用。
提出的方法
- 采用分层的 Mamba 生成器骨干,在多个尺度上处理两部分潜在向量(base z_base 和 directional z_dir)。
- 引入 Directional Latent Routing(DLR):按方向的仿射调制条件于 z_dir,且按每个方向的类别嵌入影响在 Mamba 递归之前的 token 序列。
- 使用 scan/unscan 将 2D 特征图按不同方向(行/列/对角线)序列化以生成方向性 token 序列。
- 在 Mamba 模块之后注入固定的、分辨率一致的类别条件信号以保持类内多样性。
- 在最高分辨率处引入受 StyleGAN2 启发的最终细化块,以平衡全局连贯性与局部细节。
- 通过 AFHQ、FFHQ、LSUN、CelebA 数据集的 FID/KID 与 Precision/Recall/Density/Coverage 评估 DSS-GAN,与 StyleGAN2-ADA 进行对比。
实验结果
研究问题
- RQ1基于 Mamba 的生成器骨干是否能有效支撑带有类别条件输入的从噪声到图像的合成?
- RQ2方向性潜在路由是否能够实现空间专门化的条件化,从而在不同分辨率下提升样本质量与多样性?
- RQ3扫描方向数量以及类别信息的整合如何影响真实感、保真度与多样性相较于已建立基线?
- RQ4方向性分量在潜在空间中的含义对可控性与在类别条件合成中的解耦影响为何?
主要发现
| Model | Global FID | Global KID | Global P | Global R | Global D | Global C | Bedroom FID | Bedroom KID | Bedroom P | Bedroom R | Bedroom D | Bedroom C | Kitchen FID | Kitchen KID | Kitchen P | Kitchen R | Kitchen D | Kitchen C |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| StyleGAN2-ADA | 20.31 | 10.10 | .59 | .25 | .94 | .65 | 26.06 | 11.51 | .58 | .24 | .85 | .61 | 26.64 | 12.70 | .62 | .27 | .97 | .58 |
| DSS-GAN 3-dir | 23.22 | 13.23 | .52 | .28 | .62 | .67 | 25.16 | 13.45 | .52 | .28 | .62 | .67 | 31.29 | 20.28 | .52 | .28 | .62 | .67 |
| DSS-GAN 2-dir (row+column) | 17.79 | 8.79 | .64 | .20 | .88 | .75 | 21.56 | 9.61 | .59 | .26 | .78 | .76 | 23.32 | 12.30 | .71 | .18 | .97 | .78 |
| DSS-GAN 1-dir (row) | 20.28 | 11.93 | .55 | .30 | .66 | .73 | 21.39 | 10.06 | .55 | .35 | .69 | .79 | 28.78 | 19.35 | .59 | .27 | .62 | .72 |
| DSS-GAN 1-dir (column) | 20.30 | 10.73 | .58 | .23 | .65 | .68 | 24.97 | 11.95 | .58 | .24 | .69 | .69 | 25.83 | 14.43 | .60 | .18 | .69 | .69 |
- DSS-GAN 在多个数据集上实现了与 StyleGAN2-ADA 相当或优越的 FID、KID、以及精度-召回率,同时参数量比 StyleGAN2-ADA 多于 3 倍的优势。
- 方向性潜在路由实现了方向特定的专业化:沿着每个方向的子向量的扰动会产生结构化、方向相关的生成图像变化。
- 模型在 DLR 块内的 180 度旋转有助于梯度流与训练稳定性提升,同时不改变输出布局。
- 按方向的条件化和路由权重在训练过程中从均一化偏离,表明对扫描方向(列、行、对角线)的分辨率相关专业化在学习中形成。
- 消融实验表明最终高频细化最适合在顶层分辨率使用受 StyleGAN2 启发的 CNN 块,以在全局连贯性与局部细节之间取得平衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。