Skip to main content
QUICK REVIEW

[論文レビュー] Stable Velocity: A Variance Perspective on Flow Matching

Donglin Yang, Yongxing Zhang|arXiv (Cornell University)|Feb 5, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

要約: この論文は流体マッチングにおける条件付き速度ターゲットの分散を分析し、分散低減トレーニング Stable Velocity with variance-reducing training (StableVM) と適応的監督 (VA-REPA) を提案し、低分散推論を実現するための高速・安定推論法 Stable Velocity Sampling (StableVS) を導入します。

ABSTRACT

While flow matching is elegant, its reliance on single-sample conditional velocities leads to high-variance training targets that destabilize optimization and slow convergence. By explicitly characterizing this variance, we identify 1) a high-variance regime near the prior, where optimization is challenging, and 2) a low-variance regime near the data distribution, where conditional and marginal velocities nearly coincide. Leveraging this insight, we propose Stable Velocity, a unified framework that improves both training and sampling. For training, we introduce Stable Velocity Matching (StableVM), an unbiased variance-reduction objective, along with Variance-Aware Representation Alignment (VA-REPA), which adaptively strengthen auxiliary supervision in the low-variance regime. For inference, we show that dynamics in the low-variance regime admit closed-form simplifications, enabling Stable Velocity Sampling (StableVS), a finetuning-free acceleration. Extensive experiments on ImageNet $256 imes256$ and large pretrained text-to-image and text-to-video models, including SD3.5, Flux, Qwen-Image, and Wan2.2, demonstrate consistent improvements in training efficiency and more than $2 imes$ faster sampling within the low-variance regime without degrading sample quality. Our code is available at https://github.com/linYDTHU/StableVelocity.

研究の動機と目的

  • 条件付きフローマッチングターゲットの分散構造を特徴づけ、低分散領域と高分散領域を特定する。
  • 既存のフローマッチング損失のグローバルミニマイザーを保持しつつ、分散を低減するバイアスのない訓練目的StableVMを開発する。
  • 分散感知表現整合 (VA-REPA) を導入して、分散領域に応じて監督強度を適応的に調整する。
  • 低分散領域を活用して推定を迅速化するサンプリング加速法 StableVS を提供する。
  • ImageNet 潜在空間や事前訓練済みのテキストto画像・テキストtoビデオモデル全体で改善を示す。

提案手法

  • フローマッチングにおける条件付き速度の分散を定義・分析し、データ近傍での低分散と事前分布近傍での高分散という二つの領域構造を明らかにする。
  • StableVM を提案:参照サンプル上での多重サンプル・自己正規化集約により訓練分散を低減しつつ、CFMと同じミニマイザーを保持する。
  • VA-REPA を導入:分散認識的・適応的な表現整合を実現し、低分散領域でのみ正規化ウェイト付けを用いて補助監督を強化する。
  • ラベルが希少な場合にも無偏性を維持するため、クラス条件付きメモリバンクを用いて StableVM を拡張する。
  • StableVS を開発:低分散領域における解析解や DDIM に類似したサンプリングの簡略化を実現し、ファインチューニング不要で高速なサンプリングを可能にする。
Figure 1 : Variance curves of ${\mathcal{V}}_{\text{CFM}}(t)$ with 15%–85% quantile bands. Evaluated on GMMs of varying dimensionality, CIFAR-10 images, and $256\times 256$ ImageNet latents obtained by the Stable Diffusion VAE. The $y$ -axis reports ${\mathcal{V}}_{\text{CFM}}(t)$ normalized by the
Figure 1 : Variance curves of ${\mathcal{V}}_{\text{CFM}}(t)$ with 15%–85% quantile bands. Evaluated on GMMs of varying dimensionality, CIFAR-10 images, and $256\times 256$ ImageNet latents obtained by the Stable Diffusion VAE. The $y$ -axis reports ${\mathcal{V}}_{\text{CFM}}(t)$ normalized by the

実験結果

リサーチクエスチョン

  • RQ1フローマッチングにおける拡散タイムステップ全体での条件付き速度ターゲットの分散挙動はどうなるか。
  • RQ2訓練分散を減らしても、フローマッチング目的のグローバルミニマイザーを変更せずに済むか。
  • RQ3分散領域に合わせて補助監督を適応的にスケジューリングするにはどうすれば訓練を加速できるか。
  • RQ4低分散領域を活用してサンプリングを加速しても、サンプル品質を損なわないか。
  • RQ5提案手法はモデルスケールや異なる事前訓練済み拡散バックボーン間で移行可能か。

主な発見

  • CFMターゲットは二つの領域分散を示す:データ分布近傍で低分散、事前分布近傍で高分散。
  • StableVM はグローバルミニマイザーを保ちつつ訓練ターゲット分散を O(1/n) 程度低減する無偏な分散低減訓練ターゲットを提供する。
  • VA-REPA は低分散領域で表現整合を適応的に強化し、訓練効率とFID/IS 指標を改善する。
  • StableVS は複数モデル(SD3.5、Flux、Qwen-Image、Wan2.2 など)で低分散領域における推論加速を 2 倍超達成し、品質の可感的な低下なし。
  • StableVM と VA-REPA はモデルスケールと訓練変種を横断して REPA ベースラインを一貫して上回り、StableVS はさまざまなタスクで 30-step ベースラインと同等以上を、はるかに少ないステップ数で達成する。
Figure 2 : Illustration of CFM variance ${\mathcal{V}}_{\text{CFM}}(t)$ . (a) The low-variance regime ( $t\leq\xi$ ), where the posterior $p_{t}({\bm{x}}_{0}\mid{\bm{x}}_{t})$ is sharply concentrated and the conditional velocity ${\bm{v}}_{t}({\bm{x}}_{t}\mid{\bm{x}}_{0})$ nearly coincides with the
Figure 2 : Illustration of CFM variance ${\mathcal{V}}_{\text{CFM}}(t)$ . (a) The low-variance regime ( $t\leq\xi$ ), where the posterior $p_{t}({\bm{x}}_{0}\mid{\bm{x}}_{t})$ is sharply concentrated and the conditional velocity ${\bm{v}}_{t}({\bm{x}}_{t}\mid{\bm{x}}_{0})$ nearly coincides with the

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。