Skip to main content
QUICK REVIEW

[论文解读] SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation

Youngwoo Shin, Jiwan Hur|arXiv (Cornell University)|Feb 5, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

SSG 在高频语义残差与粗粒度先验分离的基础上,通过频域离散空间增强(DSE)强调高频语义残差,提供训练无关的推理时引导,跨多尺度引导视觉自回归生成。

ABSTRACT

Visual autoregressive (VAR) models generate images through next-scale prediction, naturally achieving coarse-to-fine, fast, high-fidelity synthesis mirroring human perception. In practice, this hierarchy can drift at inference time, as limited capacity and accumulated error cause the model to deviate from its coarse-to-fine nature. We revisit this limitation from an information-theoretic perspective and deduce that ensuring each scale contributes high-frequency content not explained by earlier scales mitigates the train-inference discrepancy. With this insight, we propose Scaled Spatial Guidance (SSG), training-free, inference-time guidance that steers generation toward the intended hierarchy while maintaining global coherence. SSG emphasizes target high-frequency signals, defined as the semantic residual, isolated from a coarser prior. To obtain this prior, we leverage a principled frequency-domain procedure, Discrete Spatial Enhancement (DSE), which is devised to sharpen and better isolate the semantic residual through frequency-aware construction. SSG applies broadly across VAR models leveraging discrete visual tokens, regardless of tokenization design or conditioning modality. Experiments demonstrate SSG yields consistent gains in fidelity and diversity while preserving low latency, revealing untapped efficiency in coarse-to-fine image generation. Code is available at https://github.com/Youngwoo-git/SSG.

研究动机与目标

  • 动机并解决多尺度视觉自回归(VAR)生成中的训练–推理漂移,原因在于容量有限和累积误差。
  • 开发一种方法,确保每个尺度贡献未被前一尺度解释的高频内容,保持粗到细的层次结构。
  • 提出一种频域先验提取(语义残差)与可应用于推理阶段的引导机制,适用于各类 VAR 模型。

提出的方法

  • 将高频目标信号定义为从粗粒度先验中分离出的语义残差。
  • 引入离散空间增强(DSE),一种频域过程,用于锐化并分离语义残差。
  • 在推理阶段应用缩放的空间引导(SSG),作为训练无关的引导,推动生成符合预期的层次结构。
  • 确保与使用离散视觉标记的 VAR 模型兼容,无论标记化或条件模态如何。
  • 展示在低延迟开销下,保真度和多样性方面的改进。

实验结果

研究问题

  • RQ1多尺度 VAR 模型中,如何使各尺度贡献未被前一尺度解释的高频语义内容,以缓解训练–推理差异?
  • RQ2在不同的标记化和条件模态下,SSG 是否能在不牺牲推理速度的情况下提高保真度和多样性?
  • RQ3所提出的频域先验提取(DSE)是否对 VAR 架构具有普遍有效性?

主要发现

  • SSG 在多尺度视觉自回归生成中对保真度持续带来提升。
  • SSG 在多尺度视觉自回归生成中对多样性持续带来提升。
  • SSG 在提高生成质量的同时保持低延迟。
  • SSG 无需训练,广泛适用于使用离散视觉标记的 VAR 模型及各种条件模态。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。