[논문 리뷰] Towards Foundation Models for Scientific Machine Learning: Characterizing Scaling and Transfer Behavior
이 논문은 SciML를 위한 신경 연산자의 사전 학습 및 미세 조정에 관한 연구를 통해, 사전 학습된 모델이 훨씬 적은 다운스트림 데이터로도 정확한 전달이 가능하며, 모델 크기를 확장하면 PDE 태스크 전반의 미세 조정 이득이 증가한다는 것을 보인다.
Pre-trained machine learning (ML) models have shown great performance for a wide range of applications, in particular in natural language processing (NLP) and computer vision (CV). Here, we study how pre-training could be used for scientific machine learning (SciML) applications, specifically in the context of transfer learning. We study the transfer behavior of these models as (i) the pre-trained model size is scaled, (ii) the downstream training dataset size is scaled, (iii) the physics parameters are systematically pushed out of distribution, and (iv) how a single model pre-trained on a mixture of different physics problems can be adapted to various downstream applications. We find that-when fine-tuned appropriately-transfer learning can help reach desired accuracy levels with orders of magnitude fewer downstream examples (across different tasks that can even be out-of-distribution) than training from scratch, with consistent behavior across a wide range of downstream examples. We also find that fine-tuning these models yields more performance gains as model size increases, compared to training from scratch on new downstream tasks. These results hold for a broad range of PDE learning tasks. All in all, our results demonstrate the potential of the "pre-train and fine-tune" paradigm for SciML problems, demonstrating a path towards building SciML foundation models. We open-source our code for reproducibility.
연구 동기 및 목표
- 다양한 PDE 시스템에 걸쳐 신경 연산자를 사용한 SciML의 전이 학습 연구 프레임워크를 개발한다.
- 다운스트림 데이터 규모, 모델 크기 및 물리 파라미터가 TL 성능에 미치는 영향을 정량화한다.
- 도메인 내/도메인 간 설정에서 다중 연산자 사전 학습 및 제로샷/ few-shot 미세 조정의 효과를 평가한다.
제안 방법
- 다양한 소스와 계수를 가진 대규모의 다양한 PDE 문제 세트에서 Fourier Neural Operator (FNO)를 사전 학습한다.
- 넓은 입력 값 범위를 다루기 위해 인스턴스별 정규화를 도입한다.
- 다운스트 downstream 작업에서 제로샷 또는 few-shot 학습으로 미세 조정하고, 처음부터 학습하는 것과 비교한다.
- 임베딩 차원과 Fourier 모드를 조정하여 규모 확장의 효과를 연구한다.
- 계수와 소스가 입력으로 포함되어 물리가 다른 경우에도 서로 다른 물리 및 다중 연산자 간의 전달을 평가한다.
실험 결과
연구 질문
- RQ1다운스트림 데이터 세트 크기가 신경 연산자의 전이 학습 성능에 어떤 영향을 미치는가?
- RQ2모델 매개변수 규모가 처음부터 학습하는 것 대비 미세 조정 이득에 어떤 차이를 만드는가?
- RQ3사전 학습 물리와 다른 도메인 물리(OOD 일반화)에서 전이 학습은 어떻게 동작하는가?
- RQ4다중 PDE 연산자에서 사전 학습된 단일 모델이 다른 연산자에 걸친 새로운 PDE 작업으로 효과적으로 전달될 수 있는가?
주요 결과
- 다양한 코퍼스에서의 사전 학습 후 미세 조정은 처음부터 학습하는 것보다 현저히 더 좋은 성능을 낳으며, 특히 다운스트림 데이터가 제한적일 때 그렇다.
- 모델 용량이 커질수록 처음부터 학습하는 것보다 미세 조정이 더 큰 이득을 얻는다.
- 적당한 규모의 OOD 변화와 few-shot 설정에서 전이 학습은 여전히 유리하며, 변화가 더 크거나 다운스트림 데이터가 풍부해지면 이득은 감소한다.
- 다중 연산자에서 사전 학습된 단일 모델은 다운스트림 작업 전반에서 전달 이득을 유지하며, SciML를 위한 foundation-model 스타일의 접근을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.