[论文解读] Tx-LLM: A Large Language Model for Therapeutics
Tx-LLM 是一个通用型的 LLM,从 PaLM-2 微调而来,能够编码跨多种治疗性模态与任务的知识,在使用单一模型的情况下,在许多药物发现基准上实现了与最先进水平相当的性能。
Developing therapeutics is a lengthy and expensive process that requires the satisfaction of many different criteria, and AI models capable of expediting the process would be invaluable. However, the majority of current AI approaches address only a narrowly defined set of tasks, often circumscribed within a particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about diverse therapeutic modalities. Tx-LLM is trained using a collection of 709 datasets that target 66 tasks spanning various stages of the drug discovery pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide variety of chemical or biological entities(small molecules, proteins, nucleic acids, cell lines, diseases) interleaved with free-text, allowing it to predict a broad range of associated properties, achieving competitive with state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on 22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class performance on average for tasks combining molecular SMILES representations with text such as cell line names or disease names, likely due to context learned during pretraining. We observe evidence of positive transfer between tasks with diverse drug types (e.g.,tasks involving small molecules and tasks involving proteins), and we study the impact of model size, domain finetuning, and prompting strategies on performance. We believe Tx-LLM represents an important step towards LLMs encoding biochemical knowledge and could have a future role as an end-to-end tool across the drug discovery development pipeline.
研究动机与目标
- 促使一个单一的通用型 AI 支持治疗开发管道的多个阶段。
- 在多样化的治疗学数据上训练一个 LLM,以在不进行特定任务微调的情况下提高跨任务性能。
- 在广泛的 TDC 任务集上证明具有竞争力或更优的表现。
- 研究不同药物类型的数据集之间的正迁移,以及模型大小、微调和提示策略的影响。
提出的方法
- 在 PaLM-2 基础模型上对 TxT 进行微调,TxT 是来自 Therapeutics Data Commons (TDC) 的 709 个数据集,覆盖 66 项任务。
- 将治疗相关信息表示为字符串(SMILES、序列、文本),并在提示中与自由文本交错,用于分类、回归和生成任务。
- 在训练中使用 0-shot 与 few-shot 提示的混合(70% 0-shot,30% few-shot),并随机选择示例。
- 在所有数据集上训练单一模型,混合比率按数据集大小成比例;探索 S 与 M 模型变体。
- 使用与任务相适应的指标进行评估(AUROC、AUPRC、准确度、Spearman/Pearson 相关、MAE、MSE、USPTO 生成准确性)。
- 对模型大小、领域微调、提示策略和上下文存在性进行消融研究,以评估对性能的影响。

实验结果
研究问题
- RQ1一个单一的通用型 LLM 能否学习在分子、蛋白质、核酸、细胞和疾病等领域执行多样的治疗任务?
- RQ2领域微调和更大规模的模型是否能提升在 Therapeutics Data Commons 任务上的表现?
- RQ3不同药物类型的数据集之间是否存在正向迁移,提示策略如何影响结果?
- RQ4提供上下文信息(提示)是否能提升广泛治疗任务的任务性能?
主要发现
- Tx-LLM 在 66 项任务中的 43 项接近或超过了最先进水平,在 22 项任务超越了 SOTA。
- 对于将 SMILES 与文本(如疾病或细胞系名称)结合的数据集,Tx-LLM 往往由于学习到的上下文而在平均水平上超过 SOTA。
- 正向迁移的证据:在多样化药物类型数据集上训练可提升小分子数据集的表现。
- 模型规模和领域微调显著提升性能;更大模型和微调变体在许多任务上优于基线。
- 带上下文的提示显著提升性能;移除上下文在大多数数据集上会降低准确性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。