[논문 리뷰] PreDiff: Precipitation Nowcasting with Latent Diffusion Models
PreDiff는 확률적 강수 예보를 위한 조건부 잠재 확산 모델을 사용하고 샘플링 동안 도메인 특화 물리 제약을 강제하는 지식 정렬 메커니즘을 도입합니다.
Earth system forecasting has traditionally relied on complex physical models that are computationally expensive and require significant domain expertise. In the past decade, the unprecedented increase in spatiotemporal Earth observation data has enabled data-driven forecasting models using deep learning techniques. These models have shown promise for diverse Earth system forecasting tasks but either struggle with handling uncertainty or neglect domain-specific prior knowledge, resulting in averaging possible futures to blurred forecasts or generating physically implausible predictions. To address these limitations, we propose a two-stage pipeline for probabilistic spatiotemporal forecasting: 1) We develop PreDiff, a conditional latent diffusion model capable of probabilistic forecasts. 2) We incorporate an explicit knowledge alignment mechanism to align forecasts with domain-specific physical constraints. This is achieved by estimating the deviation from imposed constraints at each denoising step and adjusting the transition distribution accordingly. We conduct empirical studies on two datasets: N-body MNIST, a synthetic dataset with chaotic behavior, and SEVIR, a real-world precipitation nowcasting dataset. Specifically, we impose the law of conservation of energy in N-body MNIST and anticipated precipitation intensity in SEVIR. Experiments demonstrate the effectiveness of PreDiff in handling uncertainty, incorporating domain-specific prior knowledge, and generating forecasts that exhibit high operational utility.
연구 동기 및 목표
- 불확실성 및 다모형 forecasting in precipitation nowcasting.
- 확률 예측을 위한 조건부 잠재 확산 모델(PreDiff)을 개발합니다.
- 샘플링 중 물리적 제약을 강화하기 위한 지식 정렬 메커니즘으로 도메인 지식을 통합합니다.
- 합성 N-body MNIST 및 실제 SEVIR 강수 데이터셋에서 성능을 시연합니다.
제안 방법
- 프레임별 VAE를 학습하여 픽셀 공간을 잠재 공간으로 매핑합니다.
- 잠재 공간에서 조건부 잠재 확산 모델(Earthformer-UNet 백본)을 사용하여 노이즈를 제거하고 미래 잠재를 예측합니다.
- z_t에서 z_t-1을 z_cond로 조건화하여 p_theta(z_t-1|z_t,z_cond)로 노이즈 제거 전이를 예측합니다.
- 지식 정렬 네트워크 U_phi를 도입하여 제약 함수 F를 추정하고, 에너지 가이드 항(Eq. 5)을 사용해 p_theta,phi(...)로 노이즈 제거 전이를 수정합니다.
- 정렬을 에너지 보존(N-body MNIST) 또는 예측 강수 강도(SEVIR)와 같은 물리적 프라이어에 기반합니다.
- 학습은 두 단계로 진행됩니다: 잠재 공간에서 LDM을 학습한 후, 기본 모델 재학습 없이 경량 정렬 네트워크를 학습합니다.
실험 결과
연구 질문
- RQ1근소한 단기 예보를 위한 잠재 확산 모델이 여러 타당한 미래 기상 시나리오를 포착할 수 있는가?
- RQ2샘플링 중 도메인 특화 선행 지식을 주입하면 예보의 물리적 신뢰성 및 운영 활용도가 향상되는가?
- RQ3PreDiff가 합성 및 실제 데이터셋에서 최첨단 결정적 및 확률적 시공간 예측 기준선과 어떻게 비교되는가?
- RQ4지식 정렬이 에너지 보존 및 강수 강도 같은 작업에서 예측 품질 및 제약 준수에 미치는 영향은 무엇인가?
- RQ5지식 정렬이 핵심 모델 재학습 없이 다른 도메인에서도 플러그인으로 일반화될 수 있는가?
주요 결과
| 모델 | 매개변수 수 (M) | MSE | MAE | SSIM | FVD | E.MSE | E.MAE |
|---|---|---|---|---|---|---|---|
| 타깃 | - | 0.000 | 0.000 | 1.0000 | 0.000 | - | - |
| 지속성 | - | 104.9 | 139.0 | 0.7270 | 168.3 | - | - |
| UNet [55] | 16.6 | 38.90 | 94.29 | 0.8260 | 142.3 | - | - |
| ConvLSTM [47] | 14.0 | 32.15 | 72.64 | 0.8886 | 86.31 | - | - |
| PredRNN [61] | 23.8 | 21.76 | 54.32 | 0.9288 | 20.65 | - | - |
| PhyDNet [11] | 3.1 | 28.97 | 78.66 | 0.8206 | 178.0 | - | - |
| E3D-LSTM [60] | 12.9 | 22.98 | 62.52 | 0.9131 | 22.28 | - | - |
| Rainformer [1] | 19.2 | 38.89 | 96.47 | 0.8036 | 163.5 | - | - |
| Earthformer [8] | 7.6 | 14.82 | 39.93 | 0.9538 | 6.798 | - | - |
| VideoGPT [65] | 92.2 | 53.68 | 77.42 | 0.8468 | 39.28 | 0.0228 | 0.1092 |
| LDM [42] | 410.3 | 46.29 | 72.19 | 0.8773 | 3.432 | 0.0243 | 0.1172 |
| PreDiff | 120.7 | 9.492 | 25.01 | 0.9716 | 0.987 | 0.0226 | 0.1083 |
| PreDiff-KA | 129.4 | 21.90 | 43.57 | 0.9303 | 4.063 | 0.0039 | 0.0443 |
- PreDiff는 비디오 예측 지표 및 에너지 보전 정확도에서 N-body MNIST의 최첨단 성능을 달성합니다.
- SEVIR에서 PreDiff는 지각 품질(FVD)과 CSI 기반 지표에서 강력한 성과를 보이며, PreDiff-KA가 제약 정렬을 개선합니다.
- 지식 정렬(PreDiff-KA)은 물리적 제약(에너지 보전) 준수에 크게 기여하며 충실도에는 다소 변화만 있습니다.
- 잠재 Earthformer-UNet 백본은 확산 과정에서 안정적이고 효과적인 시공간 모델링을 제공합니다.
- 지식 정렬은 별도의 학습으로 학습되어 핵심 모델 재학습 없이 추론에 연결될 수 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.