Skip to main content
QUICK REVIEW

[논문 리뷰] Multiple Physics Pretraining for Physical Surrogate Models

Michael T. McCabe, Bruno Régaldo-Saint Blancard|arXiv (Cornell University)|2023. 10. 04.
Model Reduction and Neural Networks인용 수 16
한 줄 요약

MPP는 서로 다른 이질적 물리 시스템의 역학을 공유 공간에 임베딩하여 자기회귀적으로 모델링하는 단일 트랜스포머를 학습시켜, 사전학습에서 경쟁적 성능을 달성하고 물리 기반 대리 모델의 저데이터 전이 성능을 우수하게 달성합니다. 사전학습된 MPP 모델을 미세조정하면 새 물리에 대한 다단계 예측이 처음부터 학습하거나 비디오 기초 모델을 사용할 때보다 향상됩니다.

ABSTRACT

We introduce multiple physics pretraining (MPP), an autoregressive task-agnostic pretraining approach for physical surrogate modeling of spatiotemporal systems with transformers. In MPP, rather than training one model on a specific physical system, we train a backbone model to predict the dynamics of multiple heterogeneous physical systems simultaneously in order to learn features that are broadly useful across systems and facilitate transfer. In order to learn effectively in this setting, we introduce a shared embedding and normalization strategy that projects the fields of multiple systems into a shared embedding space. We validate the efficacy of our approach on both pretraining and downstream tasks over a broad fluid mechanics-oriented benchmark. We show that a single MPP-pretrained transformer is able to match or outperform task-specific baselines on all pretraining sub-tasks without the need for finetuning. For downstream tasks, we demonstrate that finetuning MPP-trained models results in more accurate predictions across multiple time-steps on systems with previously unseen physical components or higher dimensional systems compared to training from scratch or finetuning pretrained video foundation models. We open-source our code and model weights trained at multiple scales for reproducibility.

연구 동기 및 목표

  • 이질적 시스템 전반에 걸쳐 공유 물리 표현을 학습하는 태스크 무관(pretraining) 프레임워크를 개발한다.
  • 하나의 사전학습 모델이 다수의 사전학습 서브태스크에서 태스크별 베이스라인과 일치하거나 이를 능가할 수 있음을 입증한다.
  • 다음 프레임 예측 자동회귀를 넘어 저데이터 환경과 다운스트림 태스크로의 전이 이점을 보여준다.
  • 유체역학의 역문제 및 매개변수 추정에서 사전학습 표현의 유용성을 평가한다.
  • 커뮤니티의 폭넓은 채택을 돕기 위해 코드와 사전학습 모델을 공개한다.

제안 방법

  • 가역 인스턴스 정규화를 사용하여 이질적인 물리 현상을 공유 임베딩 공간에 임베딩한다.
  • 완전한 축 방향 어텐션을 갖춘 Axial ViT(AViT) 트랜스포머 백본을 사용하여 시공간 데이터를 효율적으로 모델링한다.
  • 태스크 특화 미세조정 없이 여러 물리 현상에 걸쳐 다음 시간 스텝을 예측하도록 자동회귀적으로 학습한다.
  • 시스템 간 규모 차이를 다루기 위해 정규화된 MSE로 다중 태스크 손실의 균형을 맞춘다.
  • 래핑 조건에서 국소성을 보존하기 위해 수정된 상대 위치 인코딩으로 주기 경계를 처리한다.
  • 다중 해상도, 다중 물리 배치 간의 확률적 부하 균형을 위해 그래디언트 축적을 활용한다.

실험 결과

연구 질문

  • RQ1대형 트랜스포머 모델이 여러 물리 시스템의 다이나믹스를 동시에 학습할 수 있는가?
  • RQ2다중 물리 사전학습이 새 물리에 대한 자동회귀 예측에서 단일 태스크 또는 비디오 기반 사전학습 대비 미세조정 이점을 제공하는가?
  • RQ3사전학습 표현이 다음 프레임 예측 외의 다운스트림 태스크(예: 역문제, 매개변수 추정, 강제 추정)에 유용한가?
  • RQ4사전학습된 모델은 저데이터 전이와 서로 다른 물리적 체계(예: 비압축 대 압축 흐름)에 얼마나 잘 전이되는가?

주요 결과

ModelNumber of ParametersSWE NRNMSEDiffRe2D NRNMSECNS M1.0 NRNMSECNS M0.1 NRNMSE
MPP-AViT-Ti7.6M0.00660.01680.04420.0312
UNet7.7M0.083-0.84–0.47251.6650
FNO466K0.00440.12–0.16850.2425
PINN8.5K †0.017-1.6—
ORCA-SWIN-B88M0.00600.82–
MPP-AViT-B116M0.00240.01060.02810.0172
MPP-AViT-S29M0.00390.01120.03190.0213
MPP-AViT-L409M0.00220.00980.02080.0147
  • 단일 MPP-사전학습 트랜스포머가 파생된 프리트레이닝 서브태스크에서 미세조정 없이도 태스크별 베이스라인과 일치하거나 이를 능가한다.
  • MPP 모델은 SWE, DiffRe2D, CNS M1.0, CNS M0.1에서 다양한 규모의 베이스라인과 비교해 경쟁력 있거나 우수한 NRNMSE를 달성한다.
  • 저데이터 전송 시나리오에서 MPP는 처음부터 학습 및 VideoMAE에 비해 비압축에서 압축으로의 전이 과제에서 큰 차이로 우수하다.
  • 사전학습 표현은 비압축 NS에서의 강제 식별과 같은 역문제에 유용하게 작용하며, MPP가 forcing 추정의 RMSE를 감소시킨다.
  • MPP 확장(더 큰 AViT 변형)은 오차를 추가로 감소시킨다(예: SWE: 0.0066 → 0.0022; DiffRe2D: 0.0168 → 0.0098; CNS M1.0: 0.0442 → 0.0208; CNS M0.1: 0.0312 → 0.0147).
  • 커뮤니티 실험을 위해 오픈 소스 코드와 사전학습 모델이 제공된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.