Skip to main content
QUICK REVIEW

[论文解读] ChemBERTa: Large-Scale Self-Supervised Pretraining for Molecular Property Prediction

Seyone Chithrananda, Gabriel Grand|arXiv (Cornell University)|Oct 19, 2020
Computational Drug Discovery Methods参考文献 29被引用 378
一句话总结

ChemBERTa 在 77M PubChem SMILES 上进行 masked language modeling 的 Transformer 预训练,并在 MoleculeNet 上评估下游任务,展示了规模化的收益,并提供用于大规模预训练的 PubChem-77M 数据集。

ABSTRACT

GNNs and chemical fingerprints are the predominant approaches to representing molecules for property prediction. However, in NLP, transformers have become the de-facto standard for representation learning thanks to their strong downstream task transfer. In parallel, the software ecosystem around transformers is maturing rapidly, with libraries like HuggingFace and BertViz enabling streamlined training and introspection. In this work, we make one of the first attempts to systematically evaluate transformers on molecular property prediction tasks via our ChemBERTa model. ChemBERTa scales well with pretraining dataset size, offering competitive downstream performance on MoleculeNet and useful attention-based visualization modalities. Our results suggest that transformers offer a promising avenue of future work for molecular representation learning and property prediction. To facilitate these efforts, we release a curated dataset of 77M SMILES from PubChem suitable for large-scale self-supervised pretraining.

研究动机与目标

  • 展示基于 Transformer 的预训练如何影响分子性质预测性能。
  • 评估预训练数据集大小、分词和字符串表示对下游任务的影响。
  • 提供一个大规模、公开可用的 SMILES 数据集(PubChem 77M)用于自监督预训练。
  • 在此背景下比较 SMILES 与 SELFIES 表示以及两种分词器(BPE 和 SmilesTokenizer)。

提出的方法

  • 将 RoBERTa 风格的 Transformer(12 层,12 个注意头)应用于分子字符串。
  • 使用 MLM 在 77M PubChem SMILES 上进行预训练,掩码比例 15%,序列长度 512。
  • 尝试分词器(BPE vs SmilesTokenizer)和表示(SMILES vs SELFIES)。
  • 在 MoleculeNet 分类任务上对预训练模型进行微调,采用 80/10/10 的划分并基于 ROC-AUC 的早停。
  • 在选定任务上与 Chemprop 基线(D-MPNN、RF、SVM)的性能进行比较,并分析预训练规模的缩放效应。
  • 提供 BertViz 的注意力可视化,以将模型头部与化学特征联系起来。

实验结果

研究问题

  • RQ1 MLM 预训练结合 Transformer 架构是否提升了 MoleculeNet 任务的分子性质预测?
  • RQ2 预训练数据集大小(100K–10M)如何影响下游性能?
  • RQ3 分词策略(BPE vs SmilesTokenizer)和字符串表示(SMILES vs SELFIES)是否显著影响结果?
  • RQ4 注意力可视化是否能够揭示 transformer 头部中的与化学相关的模式?

主要发现

  • ChemBERTa 接近但未超过在所选 MoleculeNet 任务上的 state-of-the-art Chemprop 基线。
  • 将预训练规模从 100K 扩展到 10M 时,在 BBBP、ClinTox 与 Tox21 上,系统性地带来 ROC-AUC 增益(平均 Δ ROC-AUC = +0.110)和 PRC-AUC 增益(平均 Δ PRC-AUC = +0.059)。
  • 在 10M-PubChem 预训练下,ChemBERTa 获得 BBBP ROC-AUC 0.643 和 PRC-AUC 0.620;ClinTox ROC-AUC 0.733 和 PRC-AUC 0.975;HIV ROC-AUC 0.622 和 PRC-AUC 0.119;Tox21 ROC-AUC 0.728 和 PRC-AUC 0.207。
  • SmilesTokenizer 在一个任务上略胜于 BPE(PRC-AUC +0.015 于 Tox21 SR-p53)。
  • SELFIES 表示在 Tox21 SR-p53 上对下游性能没有显著差异,相比 SMILES。
  • 使用 BertViz 的注意力可视化显示头部选择性地关注功能基团和芳环,一些头部跟踪括号样结构,类似于某些图注意力模式。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。