Skip to main content
QUICK REVIEW

[論文レビュー] Bayesian Optimization of Catalysis With In-Context Learning

Mayk Caldas Ramos, Shane S. Michtavy|arXiv (Cornell University)|Apr 11, 2023
Machine Learning in Materials Science被引用数 30
ひとこと要約

tldr: 本論文は、訓練なしで凍結された大規模言語モデルを用いた文脈内学習(ICL)により不確実性を伴う回帰を実現し、触媒設計と合成条件予測のためのベイズ最適化を可能にする。 solubility(溶解度)と C2 生産率タスクを横断して prompting 戦略とモデルファミリを比較し、ICL とベースラインとの比較で BO の実行可能性を示す。

ABSTRACT

Large language models (LLMs) can perform accurate classification with zero or few examples through in-context learning. We extend this capability to regression with uncertainty estimation using frozen LLMs (e.g., GPT-3.5, Gemini), enabling Bayesian optimization (BO) in natural language without explicit model training or feature engineering. We apply this to materials discovery by representing experimental catalyst synthesis and testing procedures as natural language prompts. A key challenge in materials discovery is the need to characterize suboptimal candidates, which slows progress. While BO is effective for navigating large design spaces, standard surrogate models like Gaussian processes assume smoothness and continuity, an assumption that fails in highly non-linear domains such as heterogeneous catalysis. Our task-agnostic BO workflow overcomes this by operating directly in language space, producing interpretable and actionable predictions without requiring structural or electronic descriptors. On benchmarks like aqueous solubility and oxidative coupling of methane (OCM), BO-ICL matches or outperforms Gaussian processes. In live experiments on the reverse water-gas shift (RWGS) reaction, BO-ICL identifies near-optimal multi-metallic catalysts within six iterations from a pool of 3,700 candidates. Our method redefines materials representation and accelerates discovery, with broad applications across catalysis, materials science, and AI. Code: https://github.com/ur-whitelab/BO-ICL.

研究の動機と目的

  • 凍結されたLLMを用いた文脈内学習が、触媒学習と関連材料設計におけるベイズ最適化に適した不確実性を伴う予測を生み出せることを示す。
  • 自然言語の合成手順が触媒と条件を表現して性質を予測できることを示す。
  • 溶解度と触媒生産率データセットに対する性能を評価し、ベースラインとファインチューニングと比較する。

提案手法

  • LIFT を用いて触媒合成手順を自然言語プロンプトへ変換し、デコーダー中心のLLM(GPT-3, GPT-3.5, GPT-4)で利用する。
  • トークンレベルの確率から回帰と不確実性を導出するため、2つの prompting 戦略:multi(5つの選択肢)と topk(k 完了)を用いる。
  • 不確実性を定量化して、獲得関数(EI, UCB)を持つベイズ最適化を ask-tell ループで実装する。
  • ESOL 溶解度データセットと C2 生産率データセットを用いて ICL をベースライン(LIFT ファインチューニング、KRR、GPR、KNN)と比較する。
  • MMR(最大限界相関)を用いた文脈選択を適用し、モデルの文脈窓を超えた ICL を拡張する。
  • 新しいモデルの性能(GPT-4)を評価し、不確実性再校正ステップでキャリブレーションを評価する。
Figure 1: Our approach uses a Language-Interfaced Fine-Tuning (LIFT) framework with a Generative Pre-trained Transformer (GPT) to generate tokens that represent the reaction conditions that include a synthesis procedure. The catalyst synthesis and testing data is converted to an embedding vector and
Figure 1: Our approach uses a Language-Interfaced Fine-Tuning (LIFT) framework with a Generative Pre-trained Transformer (GPT) to generate tokens that represent the reaction conditions that include a synthesis procedure. The catalyst synthesis and testing data is converted to an embedding vector and

実験結果

リサーチクエスチョン

  • RQ1凍結された LL M による文脈内学習は、触媒問題におけるベイズ最適化に適した予測不確実性を提供できるか。
  • RQ2 prompting 戦略(multi 対 topk)と文脈サンプル選択は ICL の精度と BO の性能にどう影響するか。
  • RQ3 ICL は solubility と触媒生産率の予測において、従来のベースライン(KRR, GPR, KNN)およびファインチューニングと比較してどうか。
  • RQ4モデルサイズと新しさ(GPT-4 対 Curie)がこのドメインの BO 結果に与える影響は何か。
  • RQ5 ICL のプロンプトを用いた逆設計は、実験的な合成手順を望ましい特性へと誘導できるか。

主な発見

modelpromptRMSE ↓MAE ↓r ↑neg-ll ↓
text-curie-001multi13.4873.8780.0518.139
text-curie-001topk3.0162.2710.49916.985
text-davinci-003multi3.6152.5760.41115.031
text-davinci-003topk2.6521.9960.6034.842
gpt-4topk2.6831.8540.6137.629
Fine-tuned text-ada-001topk1.9361.3250.8249.775
  • ICL は、特に不確実性再校正後の solubility 予測において、ベースラインと比較して同等かそれ以上の性能を発揮する。
  • Topk プロンプトは一般にデータ効率が高く、multi プロンプトよりも少ない例数で類似の MAE と相関を達成する。
  • GPT-4 および新しいモデルは、以前の LLM より性能を向上させるが、チャットモデルは logprobs を欠く場合があり、不確実性の活用に影響する可能性がある。
  • ICL は少データ領域での BO が実現可能であり、高性能な solubility 値を特定できるが、C2 生産率はより複雑で、埋め込みを用いた GPR が ICL より優れる場合がある。
  • 不確実性の再校正はキャリブレーションを改善し、solubility タスクで再校正後に ICL がベースラインを上回ることを可能にする。
  • テキスト埋め込みを用いた GPR ベースラインは強力であり、ファインチューニングはより複雑な C2 データセットでは依然として優れており、ICL はトレーニングコストを回避する。
Figure 2: Dependence of the six models considered in this work as a function of the number of training points $N$ from where the model could select examples to create the context (for ICL models) or to train (for baseline models). In these experiments, our ICL models have a fixed example selector si
Figure 2: Dependence of the six models considered in this work as a function of the number of training points $N$ from where the model could select examples to create the context (for ICL models) or to train (for baseline models). In these experiments, our ICL models have a fixed example selector si

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。