Skip to main content
QUICK REVIEW

[论文解读] Transformers and Large Language Models for Chemistry and Drug Discovery

Andres M Bran, Philippe Schwaller|arXiv (Cornell University)|Oct 9, 2023
Machine Learning in Materials Science被引用 8
一句话总结

本章综述 Transformer 模型和大语言模型在化学与药物发现中的应用,涵盖表示、任务特定模型、多模态数据,以及利用外部工具解决化学任务的语言模型驱动代理。

ABSTRACT

Language modeling has seen impressive progress over the last years, mainly prompted by the invention of the Transformer architecture, sparking a revolution in many fields of machine learning, with breakthroughs in chemistry and biology. In this chapter, we explore how analogies between chemical and natural language have inspired the use of Transformers to tackle important bottlenecks in the drug discovery process, such as retrosynthetic planning and chemical space exploration. The revolution started with models able to perform particular tasks with a single type of data, like linearised molecular graphs, which then evolved to include other types of data, like spectra from analytical instruments, synthesis actions, and human language. A new trend leverages recent developments in large language models, giving rise to a wave of models capable of solving generic tasks in chemistry, all facilitated by the flexibility of natural language. As we continue to explore and harness these capabilities, we can look forward to a future where machine learning plays an even more integral role in accelerating scientific discovery.

研究动机与目标

  • 将化学作为语言问题的研究动机,以加速药物发现。
  • 回顾分子与反应的文本与多模态表示,以用于 Transformer 模型。
  • 总结化学任务(如逆合成和反应预测)中的任务特定 Transformer 方法。
  • 讨论高级语言模型、微调、上下文学习,以及在化学中的代理系统。

提出的方法

  • 将分子和反应表示为文本序列(如 SMILES、SELFIES),以实现基于 Transformer 的建模。
  • 对翻译式任务(如反应结果预测和逆合成)使用编码器、解码器,或编码-解码器架构。
  • 在化学任务上对模型进行预训练和微调(如 ChemFormer),以提高跨应用的可迁移性。
  • 探索无监督学习以学习表示,以及如 RXNMapper 等工具,通过注意力分析获得。
  • 结合多模态数据(光谱、合成程序、人类语言)来构建多模态模型。
  • 讨论具有微调与上下文学习能力的大型语言模型(LLMs)在化学任务中的应用,以及不确定性感知回归。

实验结果

研究问题

  • RQ1如何在单模态与多模态任务中,使用 Transformer 架构有效建模化学语言?
  • RQ2大型语言模型在化学通用推理与药物发现任务求解中的潜力与局限性是什么?
  • RQ3以外部工具为基础的 LLM 驱动代理是否可提高化学推理任务的可靠性与覆盖范围?
  • RQ4Transformer 的无监督表示在反应预测与反应空间探索等任务中与化学知识的对齐程度如何?

主要发现

  • Transformer 通过将反应与逆合成等问题视为翻译问题,在化学任务上实现了最先进的性能。
  • 仅编码器或仅解码器变体能够为分子、反应和性质提供强大的表示与生成能力。
  • 多模态与基于语言的表示将化学数据与人类语言连接起来,实现分子描述、实验步骤预测等任务。
  • 通过微调与上下文学习,LLMs 能解决数据匮乏的化学任务,在某些情况下甚至接近或超越专门方法。
  • 代理框架(如 MRKL、ReAct、ChemCrow)在化学领域显示了对齐与工具使用,提升了 LLM 的可靠性与实际适用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。