Skip to main content
QUICK REVIEW

[論文レビュー] Parallel and Distributed Thompson Sampling for Large-scale Accelerated Exploration of Chemical Space

José Miguel Hernández-Lobato, James Requeima|arXiv (Cornell University)|Jun 6, 2017
Machine Learning and Algorithms参考文献 30被引用数 76
ひとこと要約

本論文は、大規模な化学空間に対するスケーラブルな並列ベイズ最適化のための並列・分散トンプソンSampling(PDTS)を提案し、小さなバッチでは並列EIと同等であること、巨大なバッチや実際のスクリーニングタスクではスケーラブルなベンチマークより優れていることを示す。

ABSTRACT

Chemical space is so large that brute force searches for new interesting molecules are infeasible. High-throughput virtual screening via computer cluster simulations can speed up the discovery process by collecting very large amounts of data in parallel, e.g., up to hundreds or thousands of parallel measurements. Bayesian optimization (BO) can produce additional acceleration by sequentially identifying the most useful simulations or experiments to be performed next. However, current BO methods cannot scale to the large numbers of parallel measurements and the massive libraries of molecules currently used in high-throughput screening. Here, we propose a scalable solution based on a parallel and distributed implementation of Thompson sampling (PDTS). We show that, in small scale problems, PDTS performs similarly as parallel expected improvement (EI), a batch version of the most widely used BO heuristic. Additionally, in settings where parallel EI does not scale, PDTS outperforms other scalable baselines such as a greedy search, $ε$-greedy approaches and a random search method. These results show that PDTS is a successful solution for large-scale parallel BO.

研究の動機と目的

  • 総当たり探索を超える膨大な化学空間を探索する課題に動機づけ、対処する。
  • 非常に大きなバッチサイズで機能するスケーラブルな並列ベイズ最適化手法を開発する。
  • 合成ベンチマークと実際の分子スクリーニングデータセットで、PDTSを並列EIおよび他のベースラインと比較する。
  • ガウス過程モデルとベイズニューラルネットワークの双方への適用性を実証する。
  • 材料探索と創薬のハイスループットスクリーニングにおけるPDTSの有効性を示す。

提案手法

  • バッチベイズ最適化のためのParallel and Distributed Thompson Sampling(PDTS)を導入する。
  • モデルパラメータの事後サンプルを引いてそのサンプル下で最適な点を選択することで Thompson sampling を用い、並列バッチ選択を可能にする。
  • 進行中のアウトカムからの単一のモンテカルロサンプルを用いて並列獲得を近似し、追加の事後更新を回避する。
  • 分散ノードでPDTSを実装し、各ノードが独立して事後をサンプルして自分の獲得を最適化する。
  • ガウス過程とベイズニューラルネットワークの双方をサポート(確率的バックプロパゲーションで訓練されたベイズニューラルネットワークを介して)。
  • 化学における離散的に大きい候補集合に対して中央協調を用いてバッチ選択時の重複を避ける。

実験結果

リサーチクエスチョン

  • RQ1小さなバッチサイズでPDTSは並列EIと同等の性能を達成できるか。
  • RQ2化学空間探索のための並列ベイズ最適化において、PDTSは非常に大きいバッチサイズにスケールするか。
  • RQ3ハイスループットスクリーニングタスクにおいて、PDTSはgreedy、epsilon-greedy、random baselineとどう比較されるか。
  • RQ4代理モデルとしてガウス過程またはベイズニューラルネットワークを使用した場合、PDTSは効果的か。
  • RQ5材料・創薬における大規模分子データセットへPDTSを適用する際の実務的含意は何か。

主な発見

  • PDTSは小さなバッチサイズで並列EIと同様の性能を示す。
  • 大規模な並列BO設定でgreedy、epsilon-greedy、ランダムなベースラインを上回る。
  • PDTSは高いスケーラビリティを持ち、ノード間で逐次TSの実行を並列化することにより非常に大きなバッチサイズに適用可能。
  • PDTSはガウス過程とベイズニューラルネットワークの双方に適用可能で、ハイスループットスクリーニングへの適用範囲を広げる。
  • 分子データセットでの実験は、材料・創薬スクリーニングの発見加速に対するPDTSの実用性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。