[论文解读] Conditioning by adaptive sampling for robust design
CbAS 提出了一种基于模型、不可微分的方法来解决设计问题:通过对先验在期望属性上的条件化并使用自适应采样来实现;它通过关注罕见事件的条件化来对抗 oracle 的病态。
We present a new method for design problems wherein the goal is to maximize or specify the value of one or more properties of interest. For example, in protein design, one may wish to find the protein sequence that maximizes fluorescence. We assume access to one or more, potentially black box, stochastic "oracle" predictive functions, each of which maps from input (e.g., protein sequences) design space to a distribution over a property of interest (e.g. protein fluorescence). At first glance, this problem can be framed as one of optimizing the oracle(s) with respect to the input. However, many state-of-the-art predictive models, such as neural networks, are known to suffer from pathologies, especially for data far from the training distribution. Thus we need to modulate the optimization of the oracle inputs with prior knowledge about what makes `realistic' inputs (e.g., proteins that stably fold). Herein, we propose a new method to solve this problem, Conditioning by Adaptive Sampling, which yields state-of-the-art results on a protein fluorescence problem, as compared to other recently published approaches. Formally, our method achieves its success by using model-based adaptive sampling to estimate the conditional distribution of the input sequences given the desired properties.
研究动机与目标
- 在黑箱预测器的帮助下,激励设计问题,使目标是最大化或指定感兴趣的属性。
- 通过对现实输入区域的条件化,解决远离训练数据的预测模型的病态。
- 开发一个 principled、先验信息引导的方法,以对更可能满足属性要求的设计进行采样。
提出的方法
- 用在真实示例上训练的生成模型对输入先验 p(x) 进行建模。
- 将关于属性值的条件事件 S 定义为,并通过贝叶斯规则计算 p(x|S)。
- 在 S 罕见时,引入自适应的重要性采样方案来估计条件密度 p(x|S)。
- 通过最小化 KL 散度,迭代更新一个搜索模型 q(x|φ) 来逼近 p(x|S)。
- 使用一系列逐步放宽的事件 S(t) 及相应的提案 r(t)(x),以获得非消失的期望和稳定的优化。
- 在需要时,将该方法扩展到潜变量先验和联合密度。
实验结果
研究问题
- RQ1在属性 oracle 为黑箱且可能不可微的情况下,如何对生成先验进行条件化以实现所需属性值?
- RQ2自适应采样和基于 KL 的更新是否能够可靠地近似罕见事件设计目标的条件分布 p(x|S)?
- RQ3CbAS 与现有的 AM、基于 GAN/VAE 的方法及交叉熵方法在处理 oracle 病态和将设计保持在现实区域方面有何比较?
- RQ4该方法能否扩展到潜变量模型,同时保持等价性或可处理的近似?
- RQ5在蛋白质设计应用中,方法对不同的 oracle 不确定性模型(如集成模型)是否具鲁棒性?
主要发现
- CbAS 在迭代过程中展示了对目标条件分布的接近近似,表现为 KL 散度的下降。
- 该方法通过关注先验与条件事件下的高概率区域,有效避免了 oracle 病态。
- CbAS 适用于不可微分的 oracle 和离散设计空间,无需通过 oracle 的反向传播。
- 在蛋白质荧光等实验中,相较于多种基线(包括 AM 和 DbAS 变体)表现出有利的性能。
- 当联合密度可处理时,该方法可扩展到具备精确密度形式的潜变量先验。
- CbAS 通过密度比权重维持对先验的接近,兼顾目标最大化与对先验的遵循。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。