[论文解读] Translation between Molecules and Natural Language
MolT5 在大量未标注文本和 SMILES 数据上进行预训练,以开启两项新的跨模态任务:分子描述(molecule captioning)和基于文本的从头生成分子(de novo molecule generation),采用自监督框架和新的 Text2Mol 评估指标。
We present $ extbf{MolT5}$ $-$ a self-supervised learning framework for pretraining models on a vast amount of unlabeled natural language text and molecule strings. $ extbf{MolT5}$ allows for new, useful, and challenging analogs of traditional vision-language tasks, such as molecule captioning and text-based de novo molecule generation (altogether: translation between molecules and language), which we explore for the first time. Since $ extbf{MolT5}$ pretrains models on single-modal data, it helps overcome the chemistry domain shortcoming of data scarcity. Furthermore, we consider several metrics, including a new cross-modal embedding-based metric, to evaluate the tasks of molecule captioning and text-based molecule generation. Our results show that $ extbf{MolT5}$-based models are able to generate outputs, both molecules and captions, which in many cases are high quality.
研究动机与目标
- 通过自然语言接口推动对分子设计的更高层次控制。
- 通过在文本和 SMILES 字符串上的自监督预训练,克服分子描述/生成数据稀缺问题。
- 提出 MolT5 作为一个联合文本-分子预训练框架,可以在跨模态任务上进行微调。
提出的方法
- 使用从 T5 检查点初始化的编码器-解码器 Transformer。
- 通过在自然语言和 SMILES 序列中屏蔽片段,使用双语言去噪目标进行预训练。
- 在分子描述(SMILES -> 描述)或基于文本的去 novo 分子生成(描述 -> SMILES)上进行微调。
- 引入基于 Text2Mol 的跨模态检索来评估跨模态输出。
- 使用传统 NLP 指标以及化学特定的指标进行评估,包括有效性与化学指纹相似性。
实验结果
研究问题
- RQ1是否可以使用一个预训练模型实现分子与自然语言的双向翻译?
- RQ2在文本与 SMILES 上进行自监督预训练是否能提升分子描述和基于文本的分子生成的性能?
- RQ3哪些评估指标能最好地捕捉分子与语言的跨模态质量?
- RQ4在新任务上,MolT5 与基线的 seq2seq 和预训练语言模型相比如何?
主要发现
- 基于 MolT5 的模型在分子描述与生成任务上超越了 RNN 和 Transformer 的基线。
- MolT5-Large 获得最佳描述分数(BLEU-2 0.594,BLEU-4 0.508,ROUGE-1 0.654,ROUGE-2 0.510,ROUGE-L 0.594,METEOR 0.614,Text2Mol 0.582)。
- 在生成任务中,MolT5-Large 达到 BLEU-2 0.854,Exact 0.311,Levenshtein 16.071,MACCS FTS 0.834,RDK FTS 0.746,Morgan FTS 0.684,FCD 1.20,Text2Mol 0.554,Validity 0.905。
- MolT5 的特定提升包括基于 Text2Mol 的相似度更高,以及相比基线生成分子时的有效性显著更高。
- MolT5 展示了从文本描述生成精确或近似精确分子的能力,包括水合物和肽等复杂情况,在多个示例中有定性证据。
- Text2Mol 指标用于评估生成描述/分子的跨模态相似性,弥补了单一参考标题的评估空白。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。