Skip to main content
QUICK REVIEW

[論文レビュー] Analyzing and Improving Fast Sampling of Text-to-Image Diffusion Models

Zhenyu Zhou, Defang Chen|arXiv (Cornell University)|Feb 28, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

この論文は訓練不要の拡散サンプリングコンポーネントを分析し、TOR Sを導入する。これは幾何学に基づく外部スケジューリングで総回転を一定に保ち、少ステップで高品質な画像を実現し、複数のモデルで従来手法を上回る。

ABSTRACT

Text-to-image diffusion models have achieved unprecedented success but still struggle to produce high-quality results under limited sampling budgets. Existing training-free sampling acceleration methods are typically developed independently, leaving the overall performance and compatibility among these methods unexplored. In this paper, we bridge this gap by systematically elucidating the design space, and our comprehensive experiments identify the sampling time schedule as the most pivotal factor. Inspired by the geometric properties of diffusion models revealed through the Frenet-Serret formulas, we propose constant total rotation schedule (TORS), a scheduling strategy that ensures uniform geometric variation along the sampling trajectory. TORS outperforms previous training-free acceleration methods and produces high-quality images with 10 sampling steps on Flux.1-Dev and Stable Diffusion 3.5. Extensive experiments underscore the adaptability of our method to unseen models, hyperparameters, and downstream applications.

研究の動機と目的

  • 現代のテキスト対画像拡散モデルにおける訓練不要サンプリングのどの要素が性能に最も影響するかを特定する。
  • 統一されたフレームワーク内でソルバー、外部スケジュール、キャッシュ手法を体系的に分析する。
  • 初期サンプリング構造と収束を改善する幾何学に触発された外部スケジューリング戦略を提案する。
  • 未知のモデル、ハイパーパラメータ、および下流タスクに対する提案手法の適応性と互換性を実証する。

提案手法

  • サンプリングをソルバー、外部スケジュール、特徴キャッシュを含む統一デザイン空間として定義する。
  • 軌跡ベースの指標と人間の好みスコアを用いて各コンポーネントの影響を定量化する。
  • フレネ-セレ曲率とねじれに基づくConstant Total Rotation Schedule (TORS)を提案し、サンプリング軌跡に沿って計算を分配する。
  • 弧長に基づく事前計算幾何統計を算出・適用して、総回転を一定に保つスケジュールを生成する。
  • Flux.1-DevおよびStable Diffusion 3.5で複数のアクセラレータとモデル間転送性を用いてTORSとベースライン手法を評価する。

実験結果

リサーチクエスチョン

  • RQ1少数ステップ生成で性能に最も影響を与えるのはソルバー、外部スケジュール、キャッシュのうちどの要素か。
  • RQ2幾何学情報に基づく外部スケジューリング戦略は、最小ステップで構造収束と画像品質を改善できるか。
  • RQ3未知のモデル、LoRAバリアント、画像編集などの下流タスクへ提案スケジューリングはどれくらい一般化するか。
  • RQ4新しい手法は既存の訓練不要加速技術とどれくらい互換性があるか。
  • RQ510ステップサンプリングを用いた場合、基準の50ステップ生成に対する知覚品質の相対的改善はどれくらいか。

主な発見

ModelStepsIRCSASHPSv2
Flux.1-Dev Baseline500.9630.615.7330.15
Flux.1-Dev200.9330.765.6829.30
Flux.1-Dev100.7130.085.5327.70
FORA (10 steps)100.7130.325.5327.71
TaylorSeers (10 steps)100.7730.385.5828.19
DPM-Solver (10 steps)100.7330.275.5827.98
UniPC (10 steps)100.7830.415.5828.16
TPDM (10 steps)100.7630.075.6928.82
GITS (10 steps)100.9030.535.6529.13
TORS (10 steps)100.9730.975.7129.30
Stable Diffusion 3.5 Baseline500.9733.265.3728.64
Stable Diffusion 3.5200.9433.325.3627.95
Stable Diffusion 3.5100.5532.775.2325.31
FORA (10 steps)100.5632.815.2725.40
TaylorSeers (10 steps)100.5432.735.2225.25
DPM-Solver (10 steps)100.6132.885.2625.73
UniPC (10 steps)100.6932.885.2926.43
TPDM (10 steps)100.6033.105.2625.47
GITS (10 steps)100.7532.725.2525.89
TORS (10 steps)100.8633.135.3326.90
  • 外部スケジュールが訓練不要加速の中で支配的な性能要因である。
  • TORSは10ステップで構造的収束を速め、画像品質を高め、検証済みモデルで50ステップのベースラインに近づく。
  • 高次ソルバーはEulerよりも一貫した、しかし控えめな品質向上を提供する。
  • 特徴キャッシュの有効性はモデルと設定によって異なり、深いキャッシュでは一部設定で収益の逓減が見られる。
  • TORSは未知のモデル・ハイパーパラメータ・LoRAバリアント・下流タスク(例:画像編集)に対して強い適応性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。