[论文解读] TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration
TC-Padé 引入一种 Padé 启发的、轨迹一致的残差预测器来加速扩散模型取样,在保持图像/视频质量的同时实现显著加速(在某些设置下最高可达到 2.88×)。
Despite achieving state-of-the-art generation quality, diffusion models are hindered by the substantial computational burden of their iterative sampling process. While feature caching techniques achieve effective acceleration at higher step counts (e.g., 50 steps), they exhibit critical limitations in the practical low-step regime of 20-30 steps. As the interval between steps increases, polynomial-based extrapolators like TaylorSeer suffer from error accumulation and trajectory drift. Meanwhile, conventional caching strategies often overlook the distinct dynamical properties of different denoising phases. To address these challenges, we propose Trajectory-Consistent Padé approximation, a feature prediction framework grounded in Padé approximation. By modeling feature evolution through rational functions, our approach captures asymptotic and transitional behaviors more accurately than Taylor-based methods. To enable stable and trajectory-consistent sampling under reduced step counts, TC-Padé incorporates (1) adaptive coefficient modulation that leverages historical cached residuals to detect subtle trajectory transitions, and (2) step-aware prediction strategies tailored to the distinct dynamics of early, mid, and late sampling stages. Extensive experiments on DiT-XL/2, FLUX.1-dev, and Wan2.1 across both image and video generation demonstrate the effectiveness of TC-Padé. For instance, TC-Padé achieves 2.88x acceleration on FLUX.1-dev and 1.72x on Wan2.1 while maintaining high quality across FID, CLIP, Aesthetic, and VBench-2.0 metrics, substantially outperforming existing feature caching methods.
研究动机与目标
- 在低步数 regime(20–30 步)下推动扩散模型的加速,因为现有缓存会降低质量。
- 基于 Padé 近似、在残差上操作,开发轨迹一致的特征预测器。
- 引入自适应、步长感知的预测以应对早期、中期和后期去噪阶段。
- 在图像和视频生成基准上展示鲁棒性与效率。
提出的方法
- 用残差而非原始特征来建模特征演化,以提高稳定性。
- 应用类似 [2/1] 的 Padé 有理预测器,利用缓存的残差历史来预测当前残差。
- 通过轨迹稳定性指示器(TSI)对系数进行自适应调制,以决定何时跳过或计算。
- 步长感知的残差预测:对早期、中期和晚期去噪阶段采用不同策略。
- 通过 x_t+1 + 预测残差来重建目标特征,使预测器与完整特征空间解耦。
实验结果
研究问题
- RQ1Padé 基于残差的预测在扩散采样中对大步长间隔的泰勒外推是否具有更好的性能?
- RQ2在降低去噪步数的情况下,轨迹一致的残差预测是否能维持或改善视觉质量?
- RQ3自适应系数和步长感知策略是否在图像和视频任务中实现稳定、高质量的采样?
- RQ4与现有基于缓存和预测的加速方法相比,TC-Padé 在效率和质量方面有何对比?
- RQ5该方法在多种扩散模型和模态(文本到图像、文本到视频、类别条件图像生成)下是否鲁棒?
主要发现
- TC-Padé 在 Flux.1-dev 的 20 去噪步下以快速配置实现最高 2.88× 的加速,同时保持竞争力的质量指标(FID 24.14、CLIP 31.82、美学分数 0. ?)。
- 在 Wan2.1-1.3B 上,TC-Padé(fast)实现 1.72× 的延迟加速,VBench-2.0 为 60.38%,并获得有利的 PSNR/SSIM/LPIPS 分数。
- 在 ImageNet 256×256、DiT-XL/2 上,TC-Padé(fast)实现 1.46× 延迟加速和 1.64× FLOPs 减少,FID-50k 为 6.93,IS 为 185.12。
- 消融研究表明分块级残差缓存效果最好,且较低的 TS I 门限在带来速度提升的同时仅带来较小的质量权衡。
- 量化部署显示与基线相比,总体加速可达 ~2.5×,质量损失最小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。