QUICK REVIEW

[논문 리뷰] Robust data-driven discovery of governing physical laws using a new subsampling-based sparse Bayesian method to tackle four challenges (large noise, outliers, data integration, and extrapolation)

Sheng Zhang, Guang Lin|arXiv (Cornell University)|2019. 07. 17.

Model Reduction and Neural Networks인용 수 5

한 줄 요약

이 논문은 고소음, 이방성, 데이터 통합 및 외삽 조건 하에서 데이터 기반의 물리 법칙 발견의 강건성을 향상시키는 서브샘플링 기반 희박 베이지안 회귀 방법인 SubTSBR를 제안한다. 서브샘플링 크기와 서브샘플 수를 최적화함으로써, SubTSBR는 네 가지 벤치마크 물리 모델에서 노이즈가 많거나 손상된 데이터로부터 정확한 미분 방정식을 식별하는 데 있어 표준 TSBR보다 뛰어난 성능을 보인다.

ABSTRACT

Data-driven discovery of differential equations has been an emerging research topic. We propose a novel algorithm subsampling-based threshold sparse Bayesian regression (SubTSBR) to tackle high noise and outliers. The subsampling technique is used for improving the accuracy of the Bayesian learning algorithm. It has two parameters: subsampling size and the number of subsamples. When the subsampling size increases with fixed total sample size, the accuracy of our algorithm goes up and then down. When the number of subsamples increases, the accuracy of our algorithm keeps going up. We demonstrate how to use our algorithm step by step and compare our algorithm with threshold sparse Bayesian regression (TSBR) for the discovery of differential equations. We show that our algorithm produces better results. We also discuss the merits of discovering differential equations from data and demonstrate how to discover models with random initial and boundary condition as well as models with bifurcations. The numerical examples are: (1) predator-prey model with noise, (2) shallow water equations with outliers, (3) heat diffusion with random initial and boundary condition, and (4) fish-harvesting problem with bifurcations.

연구 동기 및 목표

고소음, 이방성, 데이터 통합 및 모델 외삽 등의 과제를 해결하기 위해 데이터 기반의 물리 법칙 발견에 도전한다.
불완전한 데이터로부터 지배적인 미분 방정식을 식별하는 데 있어 희박 베이지안 회귀의 정확성과 강건성을 향상시킨다.
베이지안 학습의 안정성과 수렴성을 향상시키는 새로운 서브샘플링 기반 접근법을 개발한다.
다양한 초기/경계 조건과 분기 현상이 있는 다양한 물리계에서 방법의 효과성을 입증한다.
데이터의 완벽하지 못함에 강건하고 실세계 적용에 스케일러블한 모델 발견을 위한 체계적 프레임워크를 제공한다.

제안 방법

이 방법은 서브샘플링 크기와 서브샘플 수라는 두 가지 핵심 파라미터를 가진 서브샘플링 전략을 사용하여 베이지안 학습 정확도를 향상시킨다.
서브샘플링 크기를 변화시켜 분산과 편향의 균형을 맞춘다—초기에는 크기가 커질수록 정확도가 향상되지만, 과적합으로 인해 결국 감소한다.
서브샘플 수를 늘여 posterior 추정의 분산을 줄여 정확도를 일관되게 향상시킨다.
알고리즘은 반복적 서브샘플링을 통해 안정화된 계수 추정을 가능하게 하는 기반으로 임계값 기반 희박 베이지안 회귀(TSBR)를 사용한다.
서브샘플링은 각 베이지안 업데이트 이전에 훈련 데이터에 적용되어 외부 요인과 노이즈에 대한 민감도를 감소시킨다.
최적의 성능를 달성하기 위해 서브샘플링 크기와 서브샘플 수 간의 상호 작용을 분석함으로써 체계적으로 튜닝된다.

실험 결과

연구 질문

RQ1서브샘플링은 고소음 조건 하에서 희박 베이지안 회귀가 미분 방정식을 발견하는 데 있어 어떤 방식으로 강건성을 향상시키는가?
RQ2정확도를 최대화하기 위해 서브샘플링 크기와 서브샘플 수 사이의 최적의 트레이드오프는 무엇인가?
RQ3SubTSBR는 이방성 데이터가 존재하더라도 올바른 지배 방정식을 효과적으로 복원할 수 있는가?
RQ4임의의 초기 조건과 경계 조건을 가진 모델을 발견하는 데서 이 방법은 어떤 성능을 보이는가?
RQ5SubTSBR는 물고기 어획 모델과 같은 시스템에서 분기 현상과 비선형 역학을 신뢰성 있게 식별할 수 있는가?

주요 결과

SubTSBR는 특히 고소음 수준이 높을 경우, 표준 TSBR보다 노이즈가 많은 데이터로부터 미분 방정식을 식별하는 데 더 높은 정확도를 달성한다.
서브샘플 수를 늘일수록 정확도가 일관되게 향상되며, 이는 베이지안 추정 과정에서의 분산 감소를 시사한다.
최적의 서브샘플링 크기가 존재한다—일정 수준까지 크기가 증가하면 정확도가 향상되지만, 과적합으로 인해 결국 감소한다.
심한 노이즈가 존재하는 포식자-피식자 모델에서도 SubTSBR는 정확한 지배 방정식을 성공적으로 복원한다.
외부 요인 존재하더라도 SubTSBR는 얕은 수면 방정식을 정확히 발견하여 강건성을 입증한다.
이 방법은 임의의 초기 및 경계 조건을 가진 시스템에서도 신뢰할 수 있는 모델 발견을 가능하게 하며, 어획 모델에서 분기 행동을 포착한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.