[論文レビュー] ART for Diffusion Sampling: A Reinforcement Learning Approach to Timestep Schedule
Adaptive Reparameterized Time (ART) を導入し、拡散サンプリングの適応タイムステップスケジュールを連続時間強化学習フレームワーク(ART-RL)を通じて学習;再訓練なしでデータセット間のサンプル品質と転移性を向上させる。
We consider time discretization for score-based diffusion models to generate samples from a learned reverse-time dynamic on a finite grid. Uniform and hand-crafted grids can be suboptimal given a budget on the number of time steps. We introduce Adaptive Reparameterized Time (ART) that controls the clock speed of a reparameterized time variable, leading to a time change and uneven timesteps along the sampling trajectory while preserving the terminal time. The objective is to minimize the aggregate error arising from the discretized Euler scheme. We derive a randomized control companion, ART-RL, and formulate time change as a continuous-time reinforcement learning (RL) problem with Gaussian policies. We then prove that solving ART-RL recovers the optimal ART schedule, which in turn enables practical actor--critic updates to learn the latter in a data-driven way. Empirically, based on the official EDM pipeline, ART-RL improves Fréchet Inception Distance on CIFAR-10 over a wide range of budgets and transfers to AFHQv2, FFHQ, and ImageNet without the need of retraining.
研究の動機と目的
- 固定時間予算の下でスコアベース拡散モデルの principled な離散化を動機づける。
- Adaptive Reparameterized Time (ART) を提案し、サンプリング時間を再パラメータ化して計算を再分配する。
- 最適な時間スケジュールを学習するためのガウス政策を用いた連続時間強化学習アプローチとして ART-RL を開発する。
- ART と ART-RL の理論的関係を証明し、actor–critic 更新を導出する。
- CIFAR-10 での経験的利得を示し、再訓練なしで AFHQv2、FFHQ、ImageNet へ転送する。
提案手法
- 固定総時間 T の下で再パラメータ化時計 psi(t) と時間ワープ率 theta(t) を用いた拡散サンプリングを定式化する。
- 前方/後方ダイナミクスと、時間割り当てを導く Euler 離散化誤差代替量 Q(x,psi) を定義する。
- 分布をガウス政策 pi^(lambda) によるランダム化制御として導入し、分散を |Q(x,psi)| に結びつけて連続時間 RL の補助問題(ART-RL)を解く。
- ART の最適制御が最適ガウス政策の平均に対応することを示し、actor–critic 学習スキームを可能にする。
- V(批評家/価値ネットワーク)と actor/政策平均、時間制約のラグランジュ乗数を含む実装可能な ART-RL アルゴリズムを開発する。
- 学習された時間スケジュールを、効率的なサンプリングのための決定論的な時間のみのスケジュールとして蒸留するステップを提供する。

実験結果
リサーチクエスチョン
- RQ1ART による適応時間再パラメトリゼーションは、固定時間予算下で拡散サンプラの離散化誤差を低減できるか。
- RQ2ART-RL の補助問題を解くことで最適な ART 時間スケジュールを回復し、データ駆動のスケジュール学習を可能にするか。
- RQ3ART-RL は均一スケジュールや手作業の EDM スケジュールと比較して、 diverse なデータセットと予算でどうなるか、学習済みスケジュールを再訓練なしで転送できるか。
主な発見
| NFE | Uniform (FID) | EDM (FID) | ART-RL (FID) |
|---|---|---|---|
| 3 | 280.29 | 465.83 | 152.86 |
| 9 | 213.13 | 35.54 | 32.13 |
| 13 | 191.69 | 6.79 | 5.44 |
| 19 | 168.87 | 2.54 | 2.45 |
| 35 | 118.02 | 1.85 | 1.85 |
- ART-RL は CIFAR-10 での Fréchet Inception Distance (FID) を改善し、再訓練なしで AFHQv2、FFHQ、ImageNet へ転移する。
- 一次元の実験では、ART-RL は全ての時間ステップで Uniform および EDM ベースのスケジュールを上回り、低予算で特に顕著な改善を示す。
- ART-RL は EDM パイプライン下の CIFAR-10 において Uniform および EDM に対して一貫した FID 改善をもたらし、特に小NFEsで顕著。
- 学習された時間スケジュールは補間・外挿されたタイムステップ数へ一般化し、データセット間で効果的に転移する。
- 蒸留された時間のみの ART-RL スケジュールは、各ステップのポリシー計算を必要としないドロップイン置換として機能し得る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。