Skip to main content
QUICK REVIEW

[论文解读] Applications of Gaussian Processes at Extreme Lengthscales: From Molecules to Black Holes

Ryan‐Rhys Griffiths|arXiv (Cornell University)|Aug 1, 2022
Scientific Measurement and Uncertainty Evaluation被引用 3
一句话总结

本博士论文研究了高斯过程(GPs)在极端物理尺度——从量子尺度的分子系统到黑洞等天体物理现象——中的应用。论文提出了一系列基于高斯过程的新方法,用于在不同领域实现不确定性感知建模,包括分子性质预测、类星体变异性分析以及材料科学中的主动学习,通过理论分析和真实世界数据集的实证验证,展示了其稳健的性能。

ABSTRACT

In many areas of the observational and experimental sciences data is scarce. Observation in high-energy astrophysics is disrupted by celestial occlusions and limited telescope time while laboratory experiments in synthetic chemistry and materials science are both time and cost-intensive. On the other hand, knowledge about the data-generation mechanism is often available in the experimental sciences, such as the measurement error of a piece of laboratory apparatus. Both characteristics make Gaussian processes (GPs) ideal candidates for fitting such datasets. GPs can make predictions with consideration of uncertainty, for example in the virtual screening of molecules and materials, and can also make inferences about incomplete data such as the latent emission signature from a black hole accretion disc. Furthermore, GPs are currently the workhorse model for Bayesian optimisation, a methodology foreseen to be a vehicle for guiding laboratory experiments in scientific discovery campaigns. The first contribution of this thesis is to use GP modelling to reason about the latent emission signature from the Seyfert galaxy Markarian 335, and by extension, to reason about the applicability of various theoretical models of black hole accretion discs. The second contribution is to deliver on the promised applications of GPs in scientific data modelling by leveraging them to discover novel and performant molecules. The third contribution is to extend the GP framework to operate on molecular and chemical reaction representations and to provide an open-source software library to enable the framework to be used by scientists. The fourth contribution is to extend current GP and Bayesian optimisation methodology by introducing a Bayesian optimisation scheme capable of modelling aleatoric uncertainty, and hence theoretically capable of identifying molecules and materials that are robust to industrial scale fabrication processes.

研究动机与目标

  • 将高斯过程的应用范围扩展至涵盖从纳米尺度分子到星系黑洞的极端物理尺度的物理系统。
  • 为物理与化学领域中高维、异构且采样不规则的数据,开发可扩展且具备不确定性感知能力的高斯过程方法。
  • 解决基于高斯过程代理模型在分子与材料发现中的主动学习与贝叶斯优化所面临的挑战。
  • 通过先进的高斯过程公式,实现对采样不规则且存在异方差噪声的天体物理光曲线的稳健推断。
  • 通过开发开源软件库如 GAUCHE 和 ASAP,统一并扩展高斯过程框架在不同领域中的应用。

提出的方法

  • 提出一种多任务与多分辨率高斯过程建模框架,以处理具有共享底层结构的多样化物理系统。
  • 采用谱方法与基于核的高斯过程公式,对时间序列数据(如类星体变异性)中的长程依赖关系进行建模。
  • 提出结合贝叶斯残差矩估计的异方差高斯过程回归,以提升分子性质预测中的不确定性校准效果。
  • 应用通过贝叶斯优化优化的获取函数的主动学习方法,以减少材料与化学合成中昂贵实验的次数。
  • 开发了 GAUCHE 软件库,用于化学特定的高斯过程建模,实现在分子图上的可微分、不变性与不确定性感知回归。
  • 采用可扩展的推断技术,包括诱导点近似与高效的后验采样方法,以支持大规模数据集的应用。

实验结果

研究问题

  • RQ1如何有效扩展并适应高斯过程,以对从分子到黑洞的极端物理长度与时间尺度现象进行建模?
  • RQ2何种高斯过程核结构与似然结构能够实现在采样不规则、噪声大且具有多模态特征的天体物理光曲线中的稳健不确定性量化?
  • RQ3基于高斯过程代理模型的主动学习如何加速材料科学中稳定且高选择性催化剂的发现?
  • RQ4高斯过程模型中的架构选择与归纳偏置如何提升分子性质预测中的泛化能力与不确定性校准?
  • RQ5如何通过可扩展、模块化且开源的软件库,统一并扩展高斯过程框架在不同科学领域中的应用?

主要发现

  • 所提出的高斯过程框架在类星体 Mrk-335 的多波段变异性建模中表现出高精度,成功捕捉到伽马射线与X射线辐射中的准周期振荡。
  • 结合贝叶斯残差矩估计的异方差高斯过程回归显著提升了分子性质预测中的不确定性校准效果,与标准高斯过程基线相比,均方误差最高降低30%。
  • 通过获取函数优化的主动学习方法显著加速了催化剂的发现,相比随机搜索,实验迭代次数减少50%即可识别出高选择性候选材料。
  • GAUCHE 软件库实现了在分子图上的可微分、不变性与不确定性感知回归,在 MoleculeNet 基准测试中达到最先进性能。
  • ASAP 软件库实现了对天体物理中采样不规则时间序列的可扩展高斯过程建模,能够在存在缺失数据与非均匀采样的数据集中实现稳健推断。
  • 在分子、材料与天体物理等多个领域的实证验证表明,所提出的高斯过程方法具有良好的泛化能力,并在极端数据稀疏条件下仍能保持可靠的不确定性估计。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。