Skip to main content
QUICK REVIEW

[论文解读] Molecular representation learning with language models and domain-relevant auxiliary tasks

Benedek Fabian, Thomas Edlich|arXiv (Cornell University)|Nov 26, 2020
Computational Drug Discovery Methods参考文献 30被引用 113
一句话总结

MolBert 使用类似 BERT 的 Transformer,通过在领域相关的辅助任务上进行预训练来学习灵活的分子表征,显示出在虚拟筛选和 QSAR 任务上的性能提升,并在基准数据集上达到最先进的结果。

ABSTRACT

We apply a Transformer architecture, specifically BERT, to learn flexible and high quality molecular representations for drug discovery problems. We study the impact of using different combinations of self-supervised tasks for pre-training, and present our results for the established Virtual Screening and QSAR benchmarks. We show that: i) The selection of appropriate self-supervised task(s) for pre-training has a significant impact on performance in subsequent downstream tasks such as Virtual Screening. ii) Using auxiliary tasks with more domain relevance for Chemistry, such as learning to predict calculated molecular properties, increases the fidelity of our learnt representations. iii) Finally, we show that molecular representations learnt by our model `MolBert' improve upon the current state of the art on the benchmark datasets.

研究动机与目标

  • 在药物发现任务(如虚拟筛选和 QSAR)中,推动对高质量分子表征的需求。
  • 研究在预训练阶段不同的领域相关辅助自监督任务如何影响下游性能。
  • 证明 MolBert 能在既定基准上实现最先进的结果。
  • 提供代码和预训练模型以实现可重复性和促进进一步研究。

提出的方法

  • 应用双向 Transformer(BERT)从 SMILES 字符串学习分子嵌入。
  • 对 MolBert 进行预训练,混合包含 MaskedLM、SMILES-Eq 和 PhysChemPred 描述符预测等自监督任务。
  • 使用 RDKit 计算真实数值的理化描述符,作为辅助预训练目标。
  • 通过下游任务(虚拟筛选和 MoleculeNet QSAR 基准)评估表征。
  • 使用简单的下游头进行微调,或直接使用嵌入进行相似性检索。

实验结果

研究问题

  • RQ1不同领域相关的辅助预训练任务如何影响下游分子性质预测和虚拟筛选性能?
  • RQ2将计算得到的分子描述符(理化性质)纳入预训练是否会提升对下游任务的表征保真度?
  • RQ3哪些预训练任务的组合在虚拟筛选和 MoleculeNet 基准测试上能实现最佳整体性能?

主要发现

  • PhysChemPred 是最具影响力的单一辅助任务,单独使用时平均 BEDROC20 为 0.292(有或无排列),而仅使用 MaskedLM 时为 0.266。
  • 将 PhysChemPred 与 MaskedLM 结合可产生叠加增益,例如 BEDROC20 平均提高约 0.031。
  • 在某些配置中,SMILES-Eq 一般在单独使用或与其他任务一起使用时会降低性能。
  • 在虚拟筛选基准上,具备最佳辅助任务组合的 MolBert 超越了最先进的描述符。
  • MolBert 表征结合 SVM 在若干 MoleculeNet 任务上优于传统描述符,微调 MolBert 在六个基准测试中取得最佳结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。