QUICK REVIEW

[논문 리뷰] One-step Latent-free Image Generation with Pixel Mean Flows

Yiyang Lu, Susie Lu|arXiv (Cornell University)|2026. 01. 29.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

이 논문은 픽셀 MeanFlow(pMF)를 소개하는데, 이는 노이즈 입력으로부터 denoised-pixel 예측 x를 출력하고 대응하는 평균 속도 u를 학습하여 순간 속도 v를 회귀하는 한 단계의 잠재(token) 없는 이미지 생성기로, 잠재 표현 없이 ImageNet에서 경쟁력 있는 FID 점수를 달성한다.

ABSTRACT

Modern diffusion/flow-based models for image generation typically exhibit two core characteristics: (i) using multi-step sampling, and (ii) operating in a latent space. Recent advances have made encouraging progress on each aspect individually, paving the way toward one-step diffusion/flow without latents. In this work, we take a further step towards this goal and propose "pixel MeanFlow" (pMF). Our core guideline is to formulate the network output space and the loss space separately. The network target is designed to be on a presumed low-dimensional image manifold (i.e., x-prediction), while the loss is defined via MeanFlow in the velocity space. We introduce a simple transformation between the image manifold and the average velocity field. In experiments, pMF achieves strong results for one-step latent-free generation on ImageNet at 256x256 resolution (2.22 FID) and 512x512 resolution (2.48 FID), filling a key missing piece in this regime. We hope that our study will further advance the boundaries of diffusion/flow-based generative models.

연구 동기 및 목표

잠재 토큰과 다중 단계 샘플링을 배제하는 한 단계의 잠재-free 이미지 생성 접근 방식을 동기부여하고 개발한다.
저차원 이미지 매니폴트(x-예측) 위의 예측 목표를 제시하고 속도 기반 손실 공간(v-손실)과 결합하여 신경망을 학습한다.
평균 흐름 개념(u)과 denoised-image-like 필드(x) 사이의 연결을 확립하여 엔드-투-엔드 픽셀 공간 생성을 가능하게 한다.
잠재 표현 없이 고해상도 ImageNet(256×256 및 512×512)에서 pMF의 타당성과 성능을 입증한다.

제안 방법

x(z_t, r, t) = z_t − t · u(z_t, r, t) 를 (r, t) 시간 격자에서 denoised-image-like 필드로 정의한다.
신경망으로 x를 예측하여 u = (z_t − x)/t를 얻고, 그 다음 V = u + (t − r) · JVP_sg를 얻어 학습의 v-손실에 사용한다.
pMF 목적 함수 L_pMF = E[ ||V_θ − v||^2 ]를 최적화하여 v를 순간 속도와 일치시키고 x-예측을 속도 공간 감독에 맞춘다.
필요에 따라 x_θ에 대한 지각 손실을 포함하여 시각적 충실도를 개선하고, L = L_pMF + λ L_perc를 통해 흐림을 제어하는 임계값 t_thr를 둔다.
더 빠른 수렴을 위한 Muon 옵티마이저를 채택하고, (r, t) 공간에서의 x-예측 목표의 전처리, 시간 샘플링, 고해상도 설정(256×256, 512×512, 1024×1024)에 대한 약식 비교를 수행한다.
모델 깊이/너비 및 학습 에포크를 달리하여 확장성을 시연하고 픽셀 공간 생성에서 1-NFE 이하의 FID/IS를 보고한다.

실험 결과

연구 질문

RQ1한 단계의 잠재-free 이미지 생성을 x(denoised-like 필드) 예측으로 효과적으로 달성할 수 있는가? 이는 u나 직접적인 이미지 x_hat이 아닌가?
RQ2x를 예측하고 물리적 관계를 통해 u와 v를 도출하는 방법이 고차원 픽셀 공간에서 학습 가능한 목표와 안정적인 학습을 제공하는가?
RQ3pMF가 ImageNet에서 256×256 및 512×512에서 FID 및 속도 면에서 기존의 선행 단일단계/잠재 기반 방법과 비교하여 어떠한가?
RQ4지각 손실, 옵티마이저 및 시간 샘플링 전략이 pMF의 품질과 수렴에 미치는 영향은 무엇인가?

주요 결과

pMF는 1-NFE에서 픽셀 공간에서 ImageNet 256×256에서 2.22 FID, 512×512에서 2.48 FID를 달성한다.
고차원 픽셀 공간 생성에서 denoised-image-like 필드인 x의 예측이 중요하며, 차원이 커질수록 u-예측은 성능이 저하된다.
지각 손실(LPIPS)을 도입하면 FID가 (VGG) 9.56에서 5.62로 개선되고 (ConvNeXt-V2)에서 3.53으로 추가 개선되어 지각 감독의 강력한 이점을 보여준다.
Muon 옵티마이저는 이 한 단계 설정에서 수렴을 가속화하고 Adam 대비 FID를 개선한다.
고해상도 실험(256/512/1024)은 패치 크기가 커져도 1-NFE를 유지하면서 경쟁력 있는 FID를 유지할 수 있음을 보여주며, 확장성을 강조한다.
표 비교에서 pMF-잠재 없음 픽셀 공간 생성을 여러 잠재 공간 확산/유동성 기반 베이스라인과 비교해 FID 측면에서 경쟁적이거나 때로는 우수하며 계산 성능이 우호적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.