[論文レビュー] One-step Latent-free Image Generation with Pixel Mean Flows
本論文はノイズの多い入力からデノイズ済みピクセル予測 x を出力し、対応する平均速度 u を学習して瞬時速度 v を回帰する一歩の潜在空間なし画像生成器を提案し、潜在表現を用いずに ImageNet で競争力のある FID を達成する。
Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.
研究の動機と目的
- 潜在トークンと多段階サンプリングを排除する一歩の潜在空間なし画像生成アプローチを動機付け、開発する。
- 低次元の画像多様体上の予測ターゲット(x-予測)と速度ベースの損失空間(v- loss)を組み合わせてニューラルネットワークを訓練する。
- 平均場(u)とデノイズ済み画像風の場(x)との橋渡しを確立し、エンドツーエンドのピクセル空間生成を可能にする。
- 潜在表現を用いない高解像度 ImageNet(256×256 および 512×512)で pMF の実現可能性と性能を示す。
提案手法
- x(z_t, r, t) = z_t − t · u(z_t, r, t) を (r, t) 時間グリッド上のデノイズ済み画像風の場として定義する。
- x をニューラルネットワークで予測し、u = (z_t − x)/t を取得し、次に V = u + (t − r) · JVP_sg を導出して訓練の v-loss に用いる。
- pMF の目的関数 L_pMF = E[ ||V_θ − v||^2 ] を最適化し、v は瞬時速度であり、x-予測を速度空間の監督と整合させる。
- 視覚的忠実性を改善するために x_θ に対する知覚損失を任意で組み込み、閾値 t_thr でブラーを制御して L = L_pMF + λ L_perc とする。
- 収束を速める Muon 最適化アルゴリズムを採用し、(r, t) 空間上の x-予測ターゲットの前処理、時間サンプリング、及び高解像度設定(256×256、512×512、1024×1024)でのアブレーションを比較する。
- モデルの深さ/幅と訓練エポックを変化させてスケーラビリティを示し、ピクセル空間生成における 1-NFE の下で FID/IS を報告する。
実験結果
リサーチクエスチョン
- RQ11)ピクセル空間で u や直接の x_hat を予測するのではなく、デノイズ済み風の場 x を予測することでワンステップの潜在空間なし画像生成を効果的に実現できるか。
- RQ22)x を予測し、物理に類似した関係から u と v を導くことで、高次元のピクセル空間で学習可能なターゲットと安定した訓練を得られるか。
- RQ33)pMF は ImageNet の 256×256 および 512×512 における FID と速度の点で、従来のワンステップ/潜在ベースの手法とどう比較されるか。
- RQ44)知覚損失、オプティマイザ、時間サンプリング戦略が pMF の品質と収束に与える影響は何か。
主な発見
- pMF は ImageNet 256×256 で FID 2.22、512×512 で FID 2.48 を 1-NFE で達成(ピクセル空間生成)。
- 高次元ピクセル空間生成では x(デノイズ済み画像風の場)を予測することが重要で、u の予測は次元が大きいと劣化する。
- 知覚損失(LPIPS)を導入すると FID が 9.56 から 5.62(VGG)へ、さらに ConvNeXt-V2 版で 3.53 へ改善し、知覚監督の強い効果を示す(256×256)。
- Muon オプティマイザは収束を加速し、このワンステップ設定で Adam より FID を改善する。
- 高解像度実験(256/512/1024)は、パッチサイズが大きくなっても 1-NFE を維持しつつ競争力のある FID を維持できることを示し、スケーラビリティに有利。
- 表の比較から、pMF 潜在空間なしピクセル空間生成は、いくつかの潜在空間拡散/流れのベースラインと比較して競合的であり、場合によっては優れていること、計算プロファイルが有利であることが示唆される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。