Skip to main content
QUICK REVIEW

[論文レビュー] TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

Benlei Cui, Shaoxuan He|arXiv (Cornell University)|Mar 3, 2026
Advanced Vision and Imaging被引用数 0
ひとこと要約

TC-PadéはPadéに着想を得た、軌跡整合型の残差予測器を導入して拡散モデルのサンプリングを加速し、いくつかの設定で最大2.88×の大幅なスピードアップを実現しつつ、画像/動画の品質を保持します。

ABSTRACT

Despite achieving state-of-the-art generation quality, diffusion models are hindered by the substantial computational burden of their iterative sampling process. While feature caching techniques achieve effective acceleration at higher step counts (e.g., 50 steps), they exhibit critical limitations in the practical low-step regime of 20-30 steps. As the interval between steps increases, polynomial-based extrapolators like TaylorSeer suffer from error accumulation and trajectory drift. Meanwhile, conventional caching strategies often overlook the distinct dynamical properties of different denoising phases. To address these challenges, we propose Trajectory-Consistent Padé approximation, a feature prediction framework grounded in Padé approximation. By modeling feature evolution through rational functions, our approach captures asymptotic and transitional behaviors more accurately than Taylor-based methods. To enable stable and trajectory-consistent sampling under reduced step counts, TC-Padé incorporates (1) adaptive coefficient modulation that leverages historical cached residuals to detect subtle trajectory transitions, and (2) step-aware prediction strategies tailored to the distinct dynamics of early, mid, and late sampling stages. Extensive experiments on DiT-XL/2, FLUX.1-dev, and Wan2.1 across both image and video generation demonstrate the effectiveness of TC-Padé. For instance, TC-Padé achieves 2.88x acceleration on FLUX.1-dev and 1.72x on Wan2.1 while maintaining high quality across FID, CLIP, Aesthetic, and VBench-2.0 metrics, substantially outperforming existing feature caching methods.

研究の動機と目的

  • 低ステップ域(20–30ステップ)での拡散モデルの加速を動機づける。既存のキャッシュが品質を低下させる場合がある。
  • 残差上で動作するPadé近似に基づく軌跡整合型特徴予測器を開発する。
  • 早期・中間・後半のデノイズ段階に対応した適応的、ステップ認識予測を導入する。
  • 画像および動画生成ベンチマークで頑健性と効率性を示す。

提案手法

  • 特徴を生の特徴量ではなく残差でモデル化して安定性を向上させる。
  • キャッシュされた残差履歴を用いて現在の残差を予測する、[2/1]のPadé様有理予測器を適用する。
  • Trajectory Stableness Indicator (TSI)による適応係数変調を用いてスキップまたは計算を決定する。
  • デノイズの早期・中間・後半フェーズに対して異なる戦略を適用したステップ認識型残差予測。
  • 標的特徴を x_t+1 + 予測残差で再構成し、予測器をフル特徴空間から分離する。

実験結果

リサーチクエスチョン

  • RQ1Padéベースの残差予測は、拡散サンプリングにおける大きなタイムステップ間隔でのTaylorベースの外挙に打ち勝てるか。
  • RQ2軌跡整合型残差予測は、デノイズステップを減らしても視覚品質を維持または向上させるか。
  • RQ3適応係数とステップ認識戦略は、画像・動画タスク全体で安定かつ高品質なサンプリングをもたらすか。
  • RQ4TC-Padéは既存のキャッシュベースおよび予測ベースの加速手法と比べて、効率と品質の点でどうか。
  • RQ5本手法は複数の拡散モデルとモダリティ(テキストから画像、テキストから動画、クラス条件付き画像生成)で頑健か。

主な発見

  • TC-PadéはFlux.1-devの20デノイズ段階で最大2.88×のスピードアップを達成し、品質指標は競合的(FID 24.14、CLIP 31.82、Aesthetic 0. ?)の水準。
  • Wan2.1-1.3BではTC-Padé(fast)が1.72×のレイテンシ速度アップを達成し、VBench-2.0は60.38%、PSNR/SSIM/LPIPSは有利な値。
  • ImageNet 256×256(DiT-XL/2使用)ではTC-Padé(fast)が1.46×レイテンシ速度アップ、1.64× FLOPs削減、FID-50k 6.93、IS 185.12。
  • ブロックレベルの残差キャッシュが最良のアブレーション結果であり、低いTSI閾値は速度アップを高めつつ小さな品質影響を伴う。
  • 量子化を用いたデプロイは、ベースラインより最大約2.5×の総合的なスピードアップを示し、品質低下は最小限。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。