Skip to main content
QUICK REVIEW

[论文解读] Three Creates All: You Only Sample 3 Steps

Yuren Cai, Guangyi Wang|arXiv (Cornell University)|Mar 23, 2026
Generative Adversarial Networks and Image Synthesis被引用 0
一句话总结

MTEO 训练小型逐层时间嵌入以取代扩散模型中的单一全球时间条件,在不增加推理成本且可训练参数极少的前提下实现高质量的少步取样(3–6 NFE)。

ABSTRACT

Diffusion models deliver high-fidelity generation but remain slow at inference time due to many sequential network evaluations. We find that standard timestep conditioning becomes a key bottleneck for few-step sampling. Motivated by layer-dependent denoising dynamics, we propose Multi-layer Time Embedding Optimization (MTEO), which freeze the pretrained diffusion backbone and distill a small set of step-wise, layer-wise time embeddings from reference trajectories. MTEO is plug-and-play with existing ODE solvers, adds no inference-time overhead, and trains only a tiny fraction of parameters. Extensive experiments across diverse datasets and backbones show state-of-the-art performance in the few-step sampling and substantially narrow the gap between distillation-based and lightweight methods. Code will be available.

研究动机与目标

  • 通过在不牺牲质量的前提下减少推理时的步数来推动更快的扩散采样。
  • 识别常规单一时间条件在少步模式下的局限性。
  • 提出一个轻量、可训练的多层时间嵌入框架(MTEO),以提炼轨迹。
  • 在 3–6 NFE 的多种骨干与数据集上 demonstratestate-of-the-art 表现。

提出的方法

  • 分析时间条件与 FiLM 调制在扩散骨干中的使用方式。
  • 引入多层时间嵌入(MTEO),在每次采样步骤为每个层分配特定的时间嵌入。
  • 冻结预训练的扩散骨干,只训练少量的逐层时间嵌入参数。
  • 通过轨迹蒸馏对齐高保真教师轨迹来训练嵌入。
  • 使用高效的分阶段训练计划并设置早停,尽量减少训练开销。

实验结果

研究问题

  • RQ1层特定的时间条件是否能在少步扩散采样中优于共享全局时间嵌入?
  • RQ2当时间条件按层解耦时,FiLM 调制能力能被利用到何种程度?
  • RQ3使用 MTEO 时,训练开销与采样质量之间的权衡是什么?
  • RQ4MTEO 是否在实现 3–6 NFE 的同时保持零推理时开销?
  • RQ5MTEO 嵌入对不同步数和不同骨干的可迁移性如何?

主要发现

  • MTEO 在多条骨干和数据集的 3–6 NFE 区间实现了最先进的性能。
  • 层特定的时间嵌入实现了跨层的条件解耦,使 FiLM 调制更丰富而不增加推理成本。
  • FiLM 具有足够的容量,在提供适当的逐层调制时可以纠正中间表示。
  • 仅训练极少数量的参数(<0.2%)并使用轨迹蒸馏,相较于基于蒸馏的方法显著提高了训练效率。
  • MTEO 仍然可迁移到不同的步数,并能显著缩小与更重的蒸馏方法之间的差距。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。