[論文レビュー] DSS-GAN: Directional State Space GAN with Mamba backbone for Class-Conditional Image Synthesis
DSS-GANはDirection Latent RoutingをMambaバックボーンと組み合わせ、クラス条件付き画像合成を可能にする。複数データセットで競争力のあるFID/KIDとStyleGAN2-ADAよりも効率的な性能を実現。
We present DSS-GAN, the first generative adversarial network to employ Mamba as a hierarchical generator backbone for noise-to-image synthesis. The central contribution is Directional Latent Routing (DLR), a novel conditioning mechanism that decomposes the latent vector into direction-specific subvectors, each jointly projected with a class embedding to produce a feature-wise affine modulation of the corresponding Mamba scan. Unlike conventional class conditioning that injects a global signal, DLR couples class identity and latent structure along distinct spatial axes of the feature map, applied consistently across all generative scales. DSS-GAN achieves improved FID, KID, and precision-recall scores compared to StyleGAN2-ADA across multiple tested datasets. Analysis of the latent space reveals that directional subvectors exhibit measurable specialization: perturbations along individual components produce structured, direction-correlated changes in the synthesized image.
研究の動機と目的
- 高品質で制御可能なクラス条件付き画像合成の動機付けと実現、効率的な長距離依存性モデリング。
- 潜在構造とクラス識別を異なる空間的方向に結びつける新しい conditioning 機構の導入。
- Mambaベースの発生器がStyleGAN2-ADAよりパラメータを大幅に減らしても上回る/同等であることの実証。
- 方向性 latent 成分がスケール間でどのように専門化するか、クラス conditioningが方向ルーティングとどのように相互作用するかの分析。
提案手法
- 階層的なMamba発生器バックボーンを用いて、base z_baseと方向性 z_dir の2部構成潜在ベクトルを複数スケールで処理。
- Directional Latent Routing (DLR) を導入:z_dirに条件づけられた方向ごとの仮変換と、Mamba再帰前のトークン列に影響を与える方向ごとのクラス埋め込みを適用。
- 2D特徴マップを異なる方向(行/列/対角)に沿って直列化して、方向性トークン列を生成するscan/unscanを使用。
- Mambaブロック後に固定の解像度一貫のクラス conditioning信号を適用して intra-classの多様性を維持。
- グローバル整合性と局所的ディテールのバランスを取るため、最上解像度でStyleGAN2風の最終 refinement ブロックを導入。
- AFHQ, FFHQ, LSUN, CelebA 各データセットでFID/KIDとPrecision/Recall/Density/Coverageを評価し、DSS-GANをStyleGAN2-ADAと比較。
実験結果
リサーチクエスチョン
- RQ1Mambaベースの発生器バックボーンは、クラス条件付き入力とのノイズ→画像合成を効果的にサポートできるか。
- RQ2方向性 latent routingは、解像度を跨いでサンプル品質と多様性を向上させるような空間的専門化 conditioned を可能にするか。
- RQ3スキャン方向の数とクラス情報の統合は、実在性、忠実度、多様性に、確立済みベースラインと比べてどのように影響するか。
- RQ4方向性成分の潜在空間における解釈性と分離可能性は、クラス条件付き合成の可制御性にどう寄与するか。
主な発見
| Model | Global FID | Global KID | Global P | Global R | Global D | Global C | Bedroom FID | Bedroom KID | Bedroom P | Bedroom R | Bedroom D | Bedroom C | Kitchen FID | Kitchen KID | Kitchen P | Kitchen R | Kitchen D | Kitchen C |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| StyleGAN2-ADA | 20.31 | 10.10 | .59 | .25 | .94 | .65 | 26.06 | 11.51 | .58 | .24 | .85 | .61 | 26.64 | 12.70 | .62 | .27 | .97 | .58 |
| DSS-GAN 3-dir | 23.22 | 13.23 | .52 | .28 | .62 | .67 | 25.16 | 13.45 | .52 | .28 | .62 | .67 | 31.29 | 20.28 | .52 | .28 | .62 | .67 |
| DSS-GAN 2-dir (row+column) | 17.79 | 8.79 | .64 | .20 | .88 | .75 | 21.56 | 9.61 | .59 | .26 | .78 | .76 | 23.32 | 12.30 | .71 | .18 | .97 | .78 |
| DSS-GAN 1-dir (row) | 20.28 | 11.93 | .55 | .30 | .66 | .73 | 21.39 | 10.06 | .55 | .35 | .69 | .79 | 28.78 | 19.35 | .59 | .27 | .62 | .72 |
| DSS-GAN 1-dir (column) | 20.30 | 10.73 | .58 | .23 | .65 | .68 | 24.97 | 11.95 | .58 | .24 | .69 | .69 | 25.83 | 14.43 | .60 | .18 | .69 | .69 |
- DSS-GANはStyleGAN2-ADAと比較して複数データセットで同等または優れたFID、KID、precision-recallを達成し、パラメータ数は3倍以上少なくなる。
- Direction Latent Routingは方向特異的な専門化をもたらす:方向ごとの部分ベクトルに沿った摂動が、生成画像に構造化された方向相関の変化を生み出す。
- DLRブロック内で180度回転は、出力レイアウトを変更せずに勾配フローと訓練安定性を向上させる。
- 方向ごとの conditioning と routing 重みは訓練中に均一性から逸脱し、スキャン方向(列、行、対角)の解像度依存の専門化を示唆。
- Ablationでは最終の高周波リファインメントはTop解像度でStyleGAN2風CNNブロックによって最適化され、グローバル整合性と局所的ディテールのバランスが取れることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。