[논문 리뷰] Bayesian Optimization of Catalysis With In-Context Learning
논문은 고정된 LLM을 이용한 맥락 내 학습(ICL)을 통해 불확실성을 가진 회귀를 시연하고, 이를 통해 촉매 설계 및 합성 조건 예측에 베이지안 최적화를 가능하게 한다. 용해도와 C2-yield 작업에서 프롬프트 전략과 모델 계열을 비교하고 ICL과 베이스라인 간의 BO 가능성을 보인다.
Large language models (LLMs) can perform accurate classification with zero or few examples through in-context learning. We extend this capability to regression with uncertainty estimation using frozen LLMs (e.g., GPT-3.5, Gemini), enabling Bayesian optimization (BO) in natural language without explicit model training or feature engineering. We apply this to materials discovery by representing experimental catalyst synthesis and testing procedures as natural language prompts. A key challenge in materials discovery is the need to characterize suboptimal candidates, which slows progress. While BO is effective for navigating large design spaces, standard surrogate models like Gaussian processes assume smoothness and continuity, an assumption that fails in highly non-linear domains such as heterogeneous catalysis. Our task-agnostic BO workflow overcomes this by operating directly in language space, producing interpretable and actionable predictions without requiring structural or electronic descriptors. On benchmarks like aqueous solubility and oxidative coupling of methane (OCM), BO-ICL matches or outperforms Gaussian processes. In live experiments on the reverse water-gas shift (RWGS) reaction, BO-ICL identifies near-optimal multi-metallic catalysts within six iterations from a pool of 3,700 candidates. Our method redefines materials representation and accelerates discovery, with broad applications across catalysis, materials science, and AI. Code: https://github.com/ur-whitelab/BO-ICL.
연구 동기 및 목표
- 고정된(동결된) LLM을 이용한 맥락 내 학습이 촉매 및 관련 재료 설계에서 베이지안 최적화에 적합한 불확실성을 가진 예측을 생성할 수 있음을 시연한다.
- 자연어 합성 절차가 촉매와 조건을 나타내어 특성을 예측하는 방법을 보여준다.
- 용해도와 촉매 수율 데이터셋에서 성능을 평가하고 베이스라인 및 미세조정과 비교한다.
제안 방법
- LIFT를 사용하여 촉매 합성 절차를 디코더 전용 LLM(GPT-3, GPT-3.5, GPT-4)에 대한 자연어 프롬프트로 변환한다.
- 토큰 수준 확률에서 불확실성을 갖춘 회귀를 두 가지 프롬프트 전략(multi(다섯 옵션) 및 topk(k 개의 완성))을 통해 도출한다.
- 획득 함수(EI, UCB)를 활용한 베이지안 최적화를 ask-tell 루프에서 구현하기 위해 불확실성을 정량화한다.
- ESOL 용해도 및 C2 수율 데이터셋을 사용하여 LIFT 미세조정, KRR, GPR, KNN 등의 베이스라인과 ICL을 비교한다.
- 맥스 마진 관련성(MMR)을 이용한 맥락 선택을 적용하여 ICL을 모델 컨텍스트 윈도우 밖으로 확장한다.
- 새로운 모델 성능(GPT-4)을 평가하고 불확실성 재보정을 통한 보정 단계를 평가한다.

실험 결과
연구 질문
- RQ1동결된 LLM을 이용한 맥락 내 학습이 촉매 문제에서 베이지안 최적화를 위한 충분한 예측 불확실성을 제공할 수 있는가?
- RQ2프롬프트 전략(multi 대 topk)과 컨텍스트 샘플링 선택이 ICL 정확도와 BO 성능에 어떤 영향을 미치는가?
- RQ3ICL이 용해도 및 촉매 수율 예측에서 전통적 베이스라인(KRR, GPR, KNN) 및 미세조정과 어떻게 비교되는가?
- RQ4이 도메인에서 모델 크기와 최신성(GPT-4 대 Curie)이 BO 결과에 미치는 영향은 무엇인가?
- RQ5ICL 프롬프트를 사용한 역설계가 가능하여 실험적 합성 절차를 원하는 특성으로 유도할 수 있는가?
주요 결과
| 모델 | 프롬프트 | RMSE ↓ | MAE ↓ | r ↑ | 음의 로그가능도 ↓ |
|---|---|---|---|---|---|
| text-curie-001 | multi | 13.487 | 3.878 | 0.051 | 8.139 |
| text-curie-001 | topk | 3.016 | 2.271 | 0.499 | 16.985 |
| text-davinci-003 | multi | 3.615 | 2.576 | 0.411 | 15.031 |
| text-davinci-003 | topk | 2.652 | 1.996 | 0.603 | 4.842 |
| gpt-4 | topk | 2.683 | 1.854 | 0.613 | 7.629 |
| Fine-tuned text-ada-001 | topk | 1.936 | 1.325 | 0.824 | 9.775 |
- ICL은 불확실성 재보정 후 특히 용해도 예측에서 베이스라인 대비 경쟁력 있거나 우수한 성능을 보일 수 있다.
- Topk 프롬프트는 일반적으로 multi 프롬프트보다 데이터 효율성이 더 좋아 비슷한 MAE 및 상관관계에 도달하는 데 필요한 예제 수가 더 적다.
- GPT-4 및 최신 모델은 초기 LLM보다 성능을 향상시키지만 채팅 모델은 로그 확률이 부족할 수 있어 불확실성 활용에 영향이 있다.
- 낮은 데이터 규모에서 ICL과 함께 BO가 가능하며 높은 성능의 용해도 값을 식별할 수 있다. 다만 C2 수율은 더 높은 복잡성을 보이며 임베딩이 있는 GPR이 특정 설정에서 ICL보다 우수할 수 있다.
- 불확실성 재보정은 보정을 개선하고 용해도 작업에서 재보정 후 ICL이 베이스라인을 능가하도록 할 수 있다.
- 텍스트 임베딩을 이용한 GPR 베이스라인이 강력할 수 있으며, 더 복잡한 C2 데이터셋에서는 미세조정이 여전히 우수하고, ICL은 학습 비용을 피한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.