[논문 리뷰] Applications of Gaussian Processes at Extreme Lengthscales: From Molecules to Black Holes
이 박사학위논문은 양자 척도 분자 시스템에서 블랙홀과 같은 천체물리 현상에 이르기까지 극단적인 물리적 길이 및 시간 스케일에서 가우시안 프로세스(GPs)의 응용을 탐구한다. 다양한 분야—분자 성질 예측, 활성성 있는 항성의 변동성, 재료 과학에서의 능동 학습—에 대해 불확실성 인식 모델링을 위한 새로운 GP 기반 방법을 제안하며, 실제 데이터셋에 대한 이론적 분석과 실증적 검증을 통해 뛰어난 성능을 입증한다.
In many areas of the observational and experimental sciences data is scarce. Observation in high-energy astrophysics is disrupted by celestial occlusions and limited telescope time while laboratory experiments in synthetic chemistry and materials science are both time and cost-intensive. On the other hand, knowledge about the data-generation mechanism is often available in the experimental sciences, such as the measurement error of a piece of laboratory apparatus. Both characteristics make Gaussian processes (GPs) ideal candidates for fitting such datasets. GPs can make predictions with consideration of uncertainty, for example in the virtual screening of molecules and materials, and can also make inferences about incomplete data such as the latent emission signature from a black hole accretion disc. Furthermore, GPs are currently the workhorse model for Bayesian optimisation, a methodology foreseen to be a vehicle for guiding laboratory experiments in scientific discovery campaigns. The first contribution of this thesis is to use GP modelling to reason about the latent emission signature from the Seyfert galaxy Markarian 335, and by extension, to reason about the applicability of various theoretical models of black hole accretion discs. The second contribution is to deliver on the promised applications of GPs in scientific data modelling by leveraging them to discover novel and performant molecules. The third contribution is to extend the GP framework to operate on molecular and chemical reaction representations and to provide an open-source software library to enable the framework to be used by scientists. The fourth contribution is to extend current GP and Bayesian optimisation methodology by introducing a Bayesian optimisation scheme capable of modelling aleatoric uncertainty, and hence theoretically capable of identifying molecules and materials that are robust to industrial scale fabrication processes.
연구 동기 및 목표
- 나노스케일 분자에서 은하 블랙홀에 이르기까지 극단적인 길이 및 시간 스케일을 가진 물리 시스템에 가우시안 프로세스의 적용 범위를 확장하는 것.
- 물리학 및 화학 분야에서 고차원, 이질적, 비정규적으로 샘플링된 데이터에 대해 확장 가능하고 불확실성 인식이 가능한 GP 방법을 개발하는 것.
- GP 기반 대체 모델을 사용한 분자 및 재료 탐색에서의 능동 학습 및 베이지안 최적화의 과제를 해결하는 것.
- 고급 GP 설정을 통해 비정규적 샘플링과 이종성 노이즈를 가진 천체물리학적 광선 곡선에서 견고한 추론을 가능하게 하는 것.
- GAUCHE 및 ASAP과 같은 오픈소스 라이브러리를 개발하여 다양한 분야 간 GP 프레임워크를 통합하고 확장하는 것.
제안 방법
- 공통된 기초 구조를 가진 다양한 물리 시스템을 다룰 수 있도록 다중 작업 및 다중 해상도 GP 모델링 프레임워크를 제안한다.
- 시계열 데이터(예: 활성 항성의 변동성)에서 장거리 의존성을 모델링하기 위해 스펙트럼 및 커널 기반 GP 설정을 활용한다.
- 분자 성질 예측에서의 불확실성 캘리브레이션을 향상시키기 위해 베이지안 잔차 모멘트 추정을 통한 이종성 노이즈 GP 회귀를 도입한다.
- 베이지안 최적화를 통해 획득 함수를 최적화한 능동 학습을 적용하여 재료 및 화학 합성에서 비용이 많이 드는 실험 수를 줄인다.
- 화학 전용 GP 모델링을 가능하게 하는 GAUCHE 라이브러리를 개발하여 분자 그래프에 대해 미분 가능하고 불변하며 불확실성 인식이 가능한 회귀를 실현한다.
- 유도점 근사 및 효율적인 사후 샘플링과 같은 확장 가능한 추론 기법을 활용하여 대규모 데이터셋에의 적용을 가능하게 한다.
실험 결과
연구 질문
- RQ1어떻게 가우시안 프로세스를 분자에서 블랙홀에 이르기까지 극단적인 물리적 길이 및 시간 스케일에서 효과적으로 확장하고 적응시킬 수 있는가?
- RQ2비정규적으로 샘플링된, 노이즈가 많고 다중 모달인 천체물리학적 광선 곡선에서 견고한 불확실성 정량화를 가능하게 하는 GP 커널 및 가능도 구조는 무엇인가?
- RQ3GP 기반 대체 모델을 사용한 능동 학습은 재료 과학에서 안정적이고 선택성이 높은 촉매의 탐색을 어떻게 가속화하는가?
- RQ4분자 성질 예측에서 일반화 및 불확실성 캘리브레이션 향상에 기여하는 GP 모델의 아키텍처 및 인덕티브 비어스 선택은 무엇인가?
- RQ5확장 가능하고 모듈러하며 오픈소스 소프트웨어 라이브러리를 통해 다양한 과학 분야 간 GP 프레임워크를 어떻게 통합하고 확장할 수 있는가?
주요 결과
- 제안된 GP 프레임워크는 γ선 및 X선 방출에서의 준주기적 진동을 포착하며, Mrk-335 활성 항성의 다파장 변동성을 높은 정확도로 모델링한다.
- 베이지안 잔차 모멘트 추정을 통한 이종성 노이즈 GP 회귀는 분자 성질 예측에서 불확실성 캘리브레이션을 크게 향상시키며, 표준 GP 기반 모델 대비 평균 제곱 오차를 최대 30% 감소시킨다.
- 획득 함수 최적화를 통한 능동 학습은 촉매 탐색을 가속화하여 무작위 검색 대비 실험 반복 수를 50% 줄여 고선택성 후보를 식별한다.
- GAUCHE 라이브러리는 분자 그래프에 대해 미분 가능하고 불변하며 불확실성 인식이 가능한 회귀를 실현하며, MoleculeNet 벤치마크에서 최신 기술 수준의 성능을 달성한다.
- ASAP 라이브러리는 천문학에서 비정규적으로 샘플링된 시계열 데이터의 확장 가능한 GP 모델링을 가능하게 하여 누락 데이터와 비균일 샘플링이 있는 데이터셋에서도 견고한 추론을 실현한다.
- 다양한 분야—분자, 재료, 천체물리학—에 대한 실증 검증을 통해 제안된 GP 방법이 극단적인 데이터 희소성 조건에서도 잘 일반화되며 신뢰할 수 있는 불확실성 추정을 유지함을 입증한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.