QUICK REVIEW

[논문 리뷰] Scaling Laws and Pathologies of Single-Layer PINNs: Network Width and PDE Nonlinearity

Faris Chaudhry|arXiv (Cornell University)|2026. 03. 13.

Quantum many-body systems인용 수 0

한 줄 요약

이 논문은 단층 PINN에서 너비(width)와 비선형성의 상호 작용을 실험적으로 특성화하여 최적화에 의한 너비 관련 병목 현상과 KdV, Sine-Gordon, Allen-Cahn를 가로지르는 비분리적 스케일링을 밝힌다.

ABSTRACT

We establish empirical scaling laws for Single-Layer Physics-Informed Neural Networks on canonical nonlinear PDEs. We identify a dual optimization failure: (i) a baseline pathology, where the solution error fails to decrease with network width, even at fixed nonlinearity, falling short of theoretical approximation bounds, and (ii) a compounding pathology, where this failure is exacerbated by nonlinearity. We provide quantitative evidence that a simple separable power law is insufficient, and that the scaling behavior is governed by a more complex, non-separable relationship. This failure is consistent with the concept of spectral bias, where networks struggle to learn the high-frequency solution components that intensify with nonlinearity. We show that optimization, not approximation capacity, is the primary bottleneck, and propose a methodology to empirically measure these complex scaling effects.

연구 동기 및 목표

네트워크 너비가 표준 비선형 PDE의 PINN 정확도에 미치는 영향을 정량화한다.
실제에서 간단한 분리 가능한 너비–비선형성 스케일링 법칙이 성립하는지 조사한다.
단층 PINN에서 최적화 병목 현상과 근사 한계를 구분한다.
비선형성 하에서 고주파 해 구성 요소 학습에 대한 스펙트럴 바이어스의 영향을 평가한다.

제안 방법

초기 시간 여부를 포함한 1D PDE를 해결하기 위해 단일층 신경망(SLN)을 사용하고 PDE 잔여항, 경계 조건, 초기 조건을 가중 합으로 구성한 손실을 최소화한다.
각 PDE의 비선형 효과를 제어하기 위해 Hardness 파라미터 kappa를 정의한다.
세 가지 비선형 PDE(KdV, Sine-Gordon, Allen-Cahn)에 대해 네트워킹 너비 N을 {16,32,64,128,256,512,1024}와 kappa 값을 체계적으로 스윕한다.
tanh와 ReLU 활성화 함수 및 여러 난수 시드를 테스트하고, 미세한 테스트 격자에서의 평균 상대 L2 오차를 평가한다.
오류 스케일링을 log-linear 형태를 포함하는 모델에 적합시키고: error ~ A * N^{-alpha} 및 N–kappa 결합을 포착하는 확장된 비분리 상호 작용 모델을 통해 확장한다.
결과를 단변수 너비 스케일링 alpha(kappa) 및 분산 모델을 통해 분석하여 분리 가능한 스케일링 법칙과 비분리 스케일링 법칙을 비교한다.

Figure 1: Error vs. Network Width ( $N$ ) for the Poisson PDE. Tanh networks find low-error solutions but exhibit high variance and no clear scaling ( $\alpha\approx 0.06\pm 0.4$ ). ReLU networks fail to learn ( $\alpha\approx 0.01\pm 0.01$ ). The gray and red lines give the theoretical error decay

실험 결과

연구 질문

RQ1실용적인 SLN-PINN 학습에서 너비 스케일링 alpha가 이론적 0.5에서 벗어나는 기저 최적화 병리가 나타나는가?
RQ2비선형성(kappa)이 너비와의 비분리 상호 작용을 유발하여 간단한 스케일링 법칙을 깨뜨리는가?
RQ3다른 활성화 함수(tanh 대 ReLU)가 너비 스케일링 및 비선형성과의 상호 작용에 어떤 영향을 미치는가?
RQ4스케일링 병리는 다양한 비선형 PDE 클래스(분산형, 초월적/쌍곡적, 반응형/확산형)에서 일관되게 나타나는가?

주요 결과

더 넓은 네트워크가 비선형 PDE의 PINN 오차를 개선하지 못하거나 악화시킬 수 있어 너비 스케일링 alpha가 0에 가깝거나 음수에 이를 수 있는 기저 병리를 시사한다.
비선형성은 난이도를 증가시키며, alpha가 kappa의 비분리 함수가 되기도 하고 때로는 복잡하고 비단조적 동작을 보인다.
ReLU의 경우 너비와 비선형성 간의 상호 작용 항이 모든 PDE에서 통계적으로 유의하여 실제 너비–kappa 결합이 존재함을 시사한다.
tanh의 경우 너비가 통계적으로 유의하지 않은 경우가 많아 다른(더 안정적인) 최적화 동역학과 혜택 있는 너비 스케일링의 부재를 시사한다.
Hardness 파라미터 kappa는 일반적으로 최종 오차를 증가시키며 일부 PDE에서는 특이한 반응(Allen-Cahn이 비전형적 동작)을 보인다.
스펙트럴 바이어스가 메커니즘으로 작용한다는 증거가 나타나며, 비선형성에서 고주파 구성 요소를 학습하는 것이 최적화를_capacity보다 더 방해한다.

Figure 2: Scaling law analysis for the Sine-Gordon equation. (a) Width scaling exponent $\alpha$ vs. hardness $\kappa$ . Often $\alpha<0$ , implying increasing network width also increases error. (b) Final error vs. hardness $\kappa$ for different network widths $N$ . The final error degrades signif

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.