QUICK REVIEW

[論文レビュー] Design by adaptive sampling

David H. Brookes, Jennifer Listgarten|arXiv (Cornell University)|Oct 8, 2018

Machine Learning and Algorithms参考文献 30被引用数 33

ひとこと要約

本稿では、生成モデルとブラックボックス予測オラクルを組み合わせて、DNA やタンパク質配列における目的の特性を最大化または指定する入力設計問題を、効率的に解く確率的フレームワークである適応的サンプリングによる設計（DbAS）を提案する。不確実性を考慮したオラクルフィードバックに従って生成モデルから適応的にサンプリングすることで、DbAS は、ノイズが多いか、微分不能なオラクルにおいても、従来の手法を上回る性能を発揮する。

ABSTRACT

We present a probabilistic modeling framework and adaptive sampling algorithm wherein unsupervised generative models are combined with black box predictive models to tackle the problem of input design. In input design, one is given one or more stochastic "oracle" predictive functions, each of which maps from the input design space (e.g. DNA sequences or images) to a distribution over a property of interest (e.g. protein fluorescence or image content). Given such stochastic oracles, the problem is to find an input that is expected to maximize one or more properties, or to achieve a specified value of one or more properties, or any combination thereof. We demonstrate experimentally that our approach substantially outperforms other recently presented methods for tackling a specific version of this problem, namely, maximization when the oracle is assumed to be deterministic and unbiased. We also demonstrate that our method can tackle more general versions of the problem.

研究の動機と目的

確率的または決定的オラクルを用いて、目的の特性値を達成する入力（例：DNA やタンパク質配列）を設計する課題に対処すること。
再訓練や教師あり微調整を必要とせず、微分不能、ノイズが多い、またはブラックボックスな予測モデルに対応する手法を開発すること。
統一されたフレームワーク内で、特性の最大化と特定の特性値への指定（スペシフィケーション）の両方を可能にすること。
オラクル予測の不確実性を活用して、インシリコ指向進化におけるサンプル効率を向上させること。

提案手法

DbAS は、入力空間を表現するためのプラグアンドプレイな生成モデルとして変分オートエンコーダー（VAE）を用いる。
各イテレーションで、現在の VAE からサンプリングを行い、ブラックボックスオラクルを用いて評価し、予測された特性値に基づいてサンプルを再重み付けする。
VAE は、サンプルの重みがオラクルの予測値と不確実性から導かれる加重最尤推定（MLE）を用いて再訓練される。
アルゴリズムは反復的に生成モデルを改善し、期待される特性値がより高い入力空間の領域に注目する。
不確実性の高いオラクルに対しても、既知のノイズ（例：等分散）を明示的にモデル化することで、耐性を高める。
目的関数の調整と関心のある特性のターゲット値範囲の使用により、最大化とスペシフィケーションの両タスクをサポートする。

実験結果

リサーチクエスチョン

RQ1微分可能性を要件としないオラクルを用いて、目的の特性を最大化する入力設計手法を開発できるか？
RQ2オラクル予測の不確実性を活用することで、入力設計におけるサンプル効率をどのように向上させられるか？
RQ3同じ最適化ループ内で、最大化とスペシフィケーションの両タスクを同時にサポートできる同一フレームワークは可能か？
RQ4オラクルのノイズに伴う性能のスケーリングはどのようになるか？また、ノイズを明示的にモデル化することで性能を向上できるか？
RQ5初期学習データが存在しないゼロショットまたはレアイベント設計シナリオに、どの程度一般化できるか？

主な発見

100,000サンプルの予算で5回の実験において、DbAS は FB-GAN や FB-VAE といったベースライン手法を著しく上回り、タンパク質発現の最大化において優れた性能を示した。
スペシフィケーションタスクでは、DbAS が生成された配列をターゲット発現値の周囲に集中させることができ、オラクル分散を 0.36 から 0.05 に人工的に低下させた場合、分布がより狭くなった。
既知のノイズを明示的にモデル化することで、ノイズの多いオラクルに対してもロバストで、収束性が向上し、予測出力の分散が低減された。
特に、DNA 配列のような高次元で離散的な入力空間において、DbAS とベースライン手法との性能差が顕著に現れた。
DbAS に用いられる VAE を用いた生成モデルは、知られている「ぼやけ具合（blurriness）」という限界を示しており、オラクル分散が低くても最適な配列に完全に収束しないことが分かった。
フレームワークは汎用的かつ拡張可能であり、実数値および離散的設計空間をサポートしており、さらなる開発によりゼロショットやレアイベント生成に適応可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。