[논문 리뷰] Flow Matching for Generative Modeling
시뮬레이션 없는 Continuous Normalizing Flows(CNFs)용 학습 프레임워크인 Flow Matching(FM)은 샘플별 조건부 확률 경로를 포함한 최적 수송(OT) 경로를 사용하여 확장 가능하고 효율적인 생성과 확산 기반 방법에 비해 향상된 우도 및 샘플 품질을 달성합니다.
We introduce a new paradigm for generative modeling built on Continuous Normalizing Flows (CNFs), allowing us to train CNFs at unprecedented scale. Specifically, we present the notion of Flow Matching (FM), a simulation-free approach for training CNFs based on regressing vector fields of fixed conditional probability paths. Flow Matching is compatible with a general family of Gaussian probability paths for transforming between noise and data samples -- which subsumes existing diffusion paths as specific instances. Interestingly, we find that employing FM with diffusion paths results in a more robust and stable alternative for training diffusion models. Furthermore, Flow Matching opens the door to training CNFs with other, non-diffusion probability paths. An instance of particular interest is using Optimal Transport (OT) displacement interpolation to define the conditional probability paths. These paths are more efficient than diffusion paths, provide faster training and sampling, and result in better generalization. Training CNFs using Flow Matching on ImageNet leads to consistently better performance than alternative diffusion-based methods in terms of both likelihood and sample quality, and allows fast and reliable sample generation using off-the-shelf numerical ODE solvers.
연구 동기 및 목표
- CNF에 대한 확장 가능하고 시뮬레이션 없이 학습 목표를 개발한다.
- CNF 학습을 위한 타깃을 구성하기 위해 샘플별 조건부 확률 경로를 활용한다.
- Flow Matching 내에서 확산과 OT를 포함한 일반적인 확률 경로의 가족을 탐구한다.
- Flow Matching이 이미지 데이터셋에서 확산 기반 방법보다 우도와 샘플 품질면에서 우수하다는 것을 입증한다.
- OT 기반 경로가 더 빠른 학습, 샘플링 및 더 나은 일반화 능력을 제공한다.
제안 방법
- 신경 벡터 필드 v_t를 타깃 경로 생성 필드 u_t로 회귀하도록 Flow Matching(FM) 목표를 정의한다.
- 조건부 확률 경로 p_t(x|x1)와 조건 벡터 필드 u_t(x|x1)로부터 p_t 및 u_t를 구성하고 이를 모아서 주변 경로 p_t 및 u_t를 얻는다.
- FM과 그레이디언트가 등가인 Conditional Flow Matching(CFM)을 사용하여 명시적 주변 타깃 없이도 샘플별 학습이 가능하게 한다.
- 평균 mu_t(x1)와 표준편차 sigma_t(x1)을 갖는 일반 가우시안 조건 경로 p_t(x|x1)을 채택하고 흐름 맵 psi_t를 통해 조건 벡터 필드 u_t(x|x1)를 유도한다.
- 확산 기반 경로(VE, VP)와 OT 변位 보간(interpolants)에 대해 특수화하고 OT의 선형적 직선 경로와 더 간단한 회귀 타깃의 이점을 강조한다.
- OT 경로를 사용하는 Flow Matching(FM)으로 ImageNet에서 CNF를 학습하고, 확산 기반 기준선과의 비교에서 우도(NLL/BPD)와 FID, 그리고 샘플링 효율성을 평가한다.
실험 결과
연구 질문
- RQ1시뮬레이션 없이 Flow Matching 목표가 각 단계에 대해 ODE를 풀지 않고도 대규모 CNF를 학습할 수 있는가?
- RQ2조건부 확률 경로(확산 대 OT)가 학습 안정성, 샘플링 효율성 및 모델 품질 측면에서 어떻게 비교되는가?
- RQ3OT 기반 조건 경로가 Flow Matching에서 확산 경로보다 더 빠른 학습 및 더 나은 일반화를 제공하는가?
- RQ4대규모 데이터셋(ImageNet)에서 Flow Matching은 확산 기반 방법에 비해 우도와 샘플 품질 측면에서 어떤 성능을 보이는가?
- RQ5Flow Matching이 일반적인 ODE 해결기를 사용해도 안정적인 조건부 생성 및 빠른 샘플링을 가능하게 하는가?
주요 결과
| 모델 | CIFAR-10 NLL(BPD) | CIFAR-10 FID | CIFAR-10 NFE | ImageNet 32x32 NLL(BPD) | ImageNet 32x32 FID | ImageNet 32x32 NFE | ImageNet 64x64 NLL(BPD) | ImageNet 64x64 FID | ImageNet 64x64 NFE |
|---|---|---|---|---|---|---|---|---|---|
| DDPM | 3.12 | 7.48 | 274 | 3.54 | 6.99 | 262 | 3.32 | 17.36 | 264 |
| Score Matching | 3.16 | 19.94 | 242 | 3.56 | 5.68 | 178 | 3.40 | 19.74 | 441 |
| ScoreFlow | 3.09 | 20.78 | 428 | 3.55 | 14.14 | 195 | 3.36 | 24.95 | 601 |
| FM w/Diffusion | 3.10 | 8.06 | 183 | 3.54 | 6.37 | 193 | 3.33 | 16.88 | 187 |
| FM w/ OT | 2.99 | 6.35 | 142 | 3.53 | 5.02 | 122 | 3.31 | 14.45 | 138 |
| FM w/ OT (ImageNet 128) | 2.90 | 20.9 | - | - | - | - | - | - | - |
- OT 경로를 사용하는 Flow Matching이 CIFAR-10 및 ImageNet 변형들에서 일반적으로 확산 기준선보다 더 나은 NLL(BPD) 및 FID를 보이고 NFE가 더 낮은 경향을 보인다.
- FM-OT는 표 1에서 CIFAR-10 및 ImageNet 32x32/64x64에서 기준선 중에서 가장 우수한 결과를 일관되게 달성한다(NLL, FID, NFE).
- ImageNet-128에서 FM w/ OT는 다양한 GAN 기반 방법과 비교해 경쟁력 있는 NLL(2.90) 및 FID(20.9)를 달성하며, Flow Matching은 강력한 우도와 샘플 품질을 제공한다.
- OT를 이용한 Flow Matching은 샘플링이 더 빠르게 이뤄지게 하며, 동일한 수치 정확도를 달성하기 위해 OT 경로는 확산 경로보다 필요한 함수 평가(NFE)가 적고 비용-품질 트레이드오프가 더 유리하다.
- CFM은 FM과 동일한 그래디언트를 제공하여 명시적 주변 벡터 필드 없이도 샘플별 학습이 가능하다.
- OT 경로는 잠재 공간에서 직선 경로를 생성해 회귀 타깃이 더 단순하고 학습/샘플링이 확산 경로에 비해 더 효율적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.