QUICK REVIEW

[论文解读] Learning to SMILE(S)

Stanisław Jastrzȩbski, Damian Leśniak|arXiv (Cornell University)|Feb 19, 2016

Computational Drug Discovery Methods被引用 13

一句话总结

本文提出直接将自然语言处理（NLP）中的深度学习模型，特别是卷积神经网络（CNNs），应用于分子的原始SMILES字符串表示，以实现基于配体的虚拟筛选。通过将SMILES视为文本并使用先进的NLP模型（如CONTEXT），该方法在小样本数据集上也优于传统手工设计的分子指纹，同时提供了对分子活性预测的可解释性结构洞察。

ABSTRACT

This paper shows how one can directly apply natural language processing (NLP) methods to classification problems in cheminformatics. Connection between these seemingly separate fields is shown by considering standard textual representation of compound, SMILES. The problem of activity prediction against a target protein is considered, which is a crucial part of computer aided drug design process. Conducted experiments show that this way one can not only outrank state of the art results of hand crafted representations but also gets direct structural insights into the way decisions are made.

研究动机与目标

探究是否可将NLP中的深度学习模型直接应用于原始SMILES字符串，以实现分子活性预测。
评估该方法是否能在基于配体的虚拟筛选中超越传统手工设计的分子指纹（如MACCS、KR）。
探讨NLP中的情感分析与化学信息学中活性预测之间的类比关系，其中分子亚结构类似于语言中的短语。
证明从原始SMILES字符串端到端学习可在药物发现中同时实现高性能与可解释性。

提出的方法

将SMILES字符串视为由原子和键组成的字符级标记序列（2字符符号）。
直接将最先进的NLP模型——特别是CNN（CONTEXT）和基于RNN的模型——应用于原始SMILES字符串，无需特征工程。
通过为每个分子生成多个随机SMILES遍历路径并平均预测结果，实现数据增强以减少过拟合。
使用5折分层交叉验证进行模型训练，并以对数损失作为主要评估指标。
对于非序列模型（SVM、RF、NB），通过简单分词将SMILES转换为n-gram表示。
对CNN输入使用独热编码，利用其直接从类似文本的分子字符串中学习局部模式的能力。

实验结果

研究问题

RQ1在预测分子活性方面，基于原始SMILES字符串训练的深度学习模型是否能优于传统手工设计的分子指纹？
RQ2NLP中的情感分析与化学信息学中的基于配体的虚拟筛选之间是否存在有意义的类比？
RQ3从SMILES字符串端到端学习是否能提供优于特征工程表示的性能和可解释性？
RQ4在小样本化学信息学场景下，不同神经网络架构（CNN与RNN）直接应用于SMILES字符串时表现如何？

主要发现

使用原始SMILES字符串的CNN模型在5-HT1A数据集上实现了最低的对数损失（0.249 ± 0.015），优于所有基线模型，包括最先进的指纹。
CNN模型在所有五个数据集上均持续优于SVM和随机森林等传统模型，证明了直接处理SMILES字符串的有效性。
通过多条SMILES路径进行数据增强显著提升了模型泛化能力，尤其在小样本数据集上效果明显。
CNN模型的成功与其检测局部结构基序的能力密切相关——这与CNN在文本中检测情感相关短语的方式类似。
RNN模型表现欠佳，原因在于数据量有限，且难以捕捉SMILES序列中的长距离依赖关系。
结果验证了分子结构与语言语法之间的类比关系，其中亚结构如同影响整体活性的语法子句。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。