[论文解读] A Likelihood-Free Inference Framework for Population Genetic Data using Exchangeable Neural Networks
本文介绍一个可交换的神经网络,采用 simulation-on-the-fly training paradigm 来在可交换的人口遗传数据上执行 likelihood-free、summary-statistic-free Bayesian inference,演示于 recombination hotspot testing。
An explosion of high-throughput DNA sequencing in the past decade has led to a surge of interest in population-scale inference with whole-genome data. Recent work in population genetics has centered on designing inference methods for relatively simple model classes, and few scalable general-purpose inference techniques exist for more realistic, complex models. To achieve this, two inferential challenges need to be addressed: (1) population data are exchangeable, calling for methods that efficiently exploit the symmetries of the data, and (2) computing likelihoods is intractable as it requires integrating over a set of correlated, extremely high-dimensional latent variables. These challenges are traditionally tackled by likelihood-free methods that use scientific simulators to generate datasets and reduce them to hand-designed, permutation-invariant summary statistics, often leading to inaccurate inference. In this work, we develop an exchangeable neural network that performs summary statistic-free, likelihood-free inference. Our framework can be applied in a black-box fashion across a variety of simulation-based tasks, both within and outside biology. We demonstrate the power of our approach on the recombination hotspot testing problem, outperforming the state-of-the-art.
研究动机与目标
- 开发一个通用的无似然推断框架,直接在原始的、可交换的人口遗传数据上工作,且不需要手工设计的摘要统计。
- 利用可交换神经网络来尊重数据中的置换不变性,并学习后验映射。
- 引入 simulation-on-the-fly 训练范式,以校准后验分布并提高泛化能力。
- 在 recombination hotspot testing 与估计上演示该方法,并与最先进的方法进行比较。
- 在等价于 ABC 的无似然设置下提供理论性质和诊断。
提出的方法
- 设计一个可交换神经网络,对二进制数据矩阵的每一行应用相同的函数,通过对称函数进行聚合,并映射到一个后验分布。
- 使用卷积子网络 Phi 来处理行输入,使用对称函数 g 来组合行输出,最后的网络 h 输出关于 theta 的后验分布。
- 采用 simulation-on-the-fly 的训练范式,其中每个训练数据点都从先验和模拟器新鲜抽取,确保后验的校准。
- 论证该方法能够实现摊销、无统计量推断,且校准度可与 ABC 相媲美或更优。
- 提供将校准性与渐近性联系到 simulation-on-the-fly 范式的理论论证。
- 将该框架应用于具有二进制人口遗传数据的 recombination hotspot testing 以及连续 hotspots 强度估计。
实验结果
研究问题
- RQ1是否可以在原始的可交换人口遗传数据上直接构建无似然贝叶斯推断方法,而无需摘要统计?
- RQ2可交换神经网络在从人口遗传数据学习后验分布方面,与非可交换结构相比有何差异?
- RQ3simulation-on-the-fly 训练范式是否能产生经过校准的后验并在固定训练集上实现更好的泛化?
- RQ4与 LDhot 及其他基线方法相比,所提出的方法在 recombination hotspot testing 与强度估计上的表现如何?
- RQ5该框架在热点测试之外的其他 population-genetic 设置中还能扩展到何种程度?
主要发现
- 可交换神经网络尊重置换不变性,将数据映射到后验分布。
- simulation-on-the-fly 训练产生经过校准的后验,并相较于固定训练集降低偏差和方差。
- 在基于现实的重组图下的 recombination hotspot testing 中,该方法优于 LDhot,并且对序列计数呈线性扩展。
- 对于热点强度估计,后验校准接近名义值,后验均值与真实值之间显示出强相关。
- 该方法在热点检测中达到 90% 的准确率,相对于 LDhot 具有较低的计算成本。
- 该方法可扩展到较大的局部区域,并且可以扩展到各种人口遗传任务,而不需要手工设计的摘要统计。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。