Skip to main content
QUICK REVIEW

[论文解读] Design by adaptive sampling

David H. Brookes, Jennifer Listgarten|arXiv (Cornell University)|Oct 8, 2018
Machine Learning and Algorithms参考文献 30被引用 33
一句话总结

本文提出设计自适应采样(DbAS),一种概率框架,将无监督生成模型与黑箱预测模型结合,以高效解决输入设计问题——如在DNA或蛋白质序列中最大化或指定期望属性。通过根据不确定性感知的预测模型反馈,自适应地从生成模型中采样,DbAS在最大化和指定任务中均优于现有方法,尤其在噪声或不可微分的预测模型下表现更优。

ABSTRACT

We present a probabilistic modeling framework and adaptive sampling algorithm wherein unsupervised generative models are combined with black box predictive models to tackle the problem of input design. In input design, one is given one or more stochastic "oracle" predictive functions, each of which maps from the input design space (e.g. DNA sequences or images) to a distribution over a property of interest (e.g. protein fluorescence or image content). Given such stochastic oracles, the problem is to find an input that is expected to maximize one or more properties, or to achieve a specified value of one or more properties, or any combination thereof. We demonstrate experimentally that our approach substantially outperforms other recently presented methods for tackling a specific version of this problem, namely, maximization when the oracle is assumed to be deterministic and unbiased. We also demonstrate that our method can tackle more general versions of the problem.

研究动机与目标

  • 解决使用随机或确定性预测模型设计输入(如DNA或蛋白质序列)以实现期望属性值的挑战。
  • 开发一种方法,适用于不可微分、有噪声或黑箱的预测模型,且无需重新训练或监督微调。
  • 在统一框架中同时支持属性最大化与指定(即针对特定属性值)任务。
  • 通过利用预测模型中的不确定性,提升计算模拟定向进化中的样本效率。

提出的方法

  • DbAS使用变分自编码器(VAE)作为即插即用的生成模型,以表示输入空间。
  • 在每次迭代中,该方法从当前VAE中采样,使用黑箱预测模型评估样本,并根据其预测的属性值对样本进行重加权。
  • 使用加权最大似然估计(MLE)对VAE进行再训练,其中样本权重由预测值及其不确定性推导得出。
  • 该算法通过迭代自适应地优化生成模型,聚焦于具有更高期望属性值的输入空间区域。
  • 该方法可处理确定性和有噪声的预测模型,并通过显式建模已知噪声(如同方差方差)来提高鲁棒性。
  • 通过调整目标函数并使用目标属性值的取值范围,该方法同时支持最大化与指定任务。

实验结果

研究问题

  • RQ1能否开发一种方法,高效设计输入以最大化期望属性,而无需预测模型可微分?
  • RQ2如何利用预测模型中的不确定性以提升输入设计的样本效率?
  • RQ3同一框架能否在同一个优化循环中同时支持最大化与指定任务?
  • RQ4该方法在预测模型存在噪声时的性能表现如何?通过显式建模噪声能否进一步提升性能?
  • RQ5该方法在缺乏初始训练数据的零样本或罕见事件设计场景中,其泛化能力如何?

主要发现

  • 在五次运行中,DbAS在100,000个样本预算下,显著优于基线方法(如FB-GAN和FB-VAE),在蛋白质表达最大化任务中表现更优。
  • 在指定任务中,DbAS成功将生成序列集中在目标表达值附近,当预测模型方差从0.36人工降低至0.05时,分布更加紧凑。
  • 通过显式建模已知噪声,该方法在有噪声预测模型下表现出鲁棒性,提升了收敛速度并降低了预测输出的方差。
  • 在高维、离散输入空间(如DNA序列)中,DbAS与基线方法的性能差距最为显著。
  • 尽管在低预测模型方差下,DbAS中基于VAE的生成模型仍表现出‘模糊性’——一种已知局限——无法完全聚焦于最优序列。
  • 该框架具有通用性和可扩展性,支持实值与离散设计空间,经进一步开发后可适用于零样本或罕见事件生成。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。