QUICK REVIEW

[논문 리뷰] Physics-Informed Video Diffusion For Shallow Water Equations

Yang Bai, George Eskandar|arXiv (Cornell University)|2026. 02. 24.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

이 논문은 물리 정보를 활용한 비디오 확산 프레임워크로, 별도의 렌더링 단계 없이 빠른 추론과 물리적 타당성을 달성하며 물-비디오 프레임과 대응하는 SWEs 상태를 공동 생성합니다.

ABSTRACT

Traditional fluid dynamics simulation pipelines combine numerical solvers with rendering, producing highly realistic results but at considerable computational cost. Diffusion-based generative video models offer a faster alternative, yet often ignore physical laws and thus fail to capture consistent dynamics. We propose a physics-informed video diffusion framework that jointly generates visual outputs and physical states. Unlike prior two-stage approaches that first simulate the physical variables and then render, we directly integrate physics constraints into the generative process, enabling simultaneous prediction of physical states and realistic videos without a separate rendering step. Built on the two-dimensional shallow water equations with terrain topography, our method produces temporally coherent water flow while maintaining physical plausibility. Experiments show that it outperforms purely data-driven video diffusion baselines in both realism and physical fidelity, while generating videos significantly faster than traditional simulation-plus-rendering pipelines.

연구 동기 및 목표

유체 역학의 시각화를 diffusion 기반 비디오 생성과 격자 기반 SWEs를 결합하여 더 빠르고 물리적으로 일관되게 만들기.
초기 조건과 지형을 확산 모델에 포함시켜 비디오 프레임과 물리적 상태를 공동으로 예측하기.
전통적인 시뮬레이션-렌더링 파이프라인 대비 런타임 속도를 크게 높이면서도 시뮬레이션 정확도의 다수를 보존하기.
출력에서 시간적 일관성과 물리적 해석 가능성을 유지하는 프레임워크를 제공하기.

제안 방법

다중 모드 이미지 조건부 잠재 확산 모델을 형식화하여 비디오 프레임과 SWEs 상태를 모두 출력하기.
비디오와 물리 잠재량과 동일한 잠재 해상도에서 초기 SWEs 조건과 지형을 물리 임베딩 층에 포함시키고 비디오와 물리 잠재량에 독립적으로 확산 적용하기.
물리 및 경계 조건 임베딩을 비디오 잠재량 및 프롬프트 임베딩과 연결하여 Diffusion Transformer를 통한 시공간 디노이징을 가능하게 하기.
정화된 표현을 비디오 잠재량과 물리 잠재량으로 매핑하기 위한 별도 프로젝션 헤드를 사용하여 공동 생성을 수행하기.
비디오 재구성 및 물리 상태 재구성을 결합한 공동 손실로 학습하여 물리적 일관성을 강제하기.
지형은 로우 경사대 계수로의 지형 기반의 바닥 경사 소스 항을 사용하여 Roe 플럭스와 TVD Runge–Kutta를 이용한 2D 얕은 물의 방정식에 기초한 유한 부피 이산화를 통한 물리적 기초를 구성하기.

실험 결과

연구 질문

RQ1확산 기반 비디오 모델이 SWEs와 지형에 의해 물리적으로 그럴듯한 물 동역학을 생성하도록 안내될 수 있는가?
RQ2비디오와 물리 상태를 공동으로 생성하는 것이 순수 데이터 기반 기준선에 비해 물리적 충실도와 시간적 일관성을 개선하는가?
RQ3전통적인 시뮬레이션-렌더링 파이프라인에 비해 어떤 런타임 개선이 가능하며 충실도는 어떻게 유지되는가?
RQ4SWEs 조건 하에서 어떤 물리 임베딩 전략(선형 보간, CNN 기반, 혹은 MLP 기반)이 비디오 품질을 가장 잘 보존하는가?

주요 결과

표 1: 방법	LPIPS ↓	SSIM ↑	PSNR ↑	FVD ↓
CogVideoX-Fun	0.2262	0.7994	18.63	189.53
CogVideoX (I2V)-LoRA	0.2241	0.8036	18.89	178.37
Naive without Physics	0.2411	0.7862	18.28	192.64
LI. with Physics	0.1588	0.8355	22.19	137.20
MLP with Physics	0.1366	0.8423	24.91	128.69
CNN with Physics	0.1341	0.8519	25.86	125.13

물리 정보를 반영한 모델은 시각적 리얼리즘 지표(LPIPS, SSIM, PSNR, FVD)에서 순수 데이터 기반 비디오 확산 기준선보다 우수한 성능을 보인다.
아블레이션 중 CNN 기반 물리 임베딩이 비디오 품질 측면에서 최상이다( LI, MLP, CNN 순으로 평가 시).
추론 시간은 격자 해상도에 거의 상수로 유지되는 반면, 전통 파이프라인은 해상도가 높아질수록 시간이 증가한다.
이 접근법은 전통 파이프라인 대비 한 차례 이상의 규모로 속도 향상을 달성하면서 시뮬레이션 정확도의 67%–90%를 보존한다.
공동 생성된 비디오와 SWEs 상태는 기준선 대비 시간적 안정성 및 물리적 타당성이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.