[论文解读] Learning Graph-Level Representation for Drug Discovery
提出一种用于分子性质预测的图级表示学习方法,通过引入一个与所有原子相连的伪超节点并使用修订后的图卷积,实现图级的分类/回归,并通过焦点损失应对数据不平衡。
Predicating macroscopic influences of drugs on human body, like efficacy and toxicity, is a central problem of small-molecule based drug discovery. Molecules can be represented as an undirected graph, and we can utilize graph convolution networks to predication molecular properties. However, graph convolutional networks and other graph neural networks all focus on learning node-level representation rather than graph-level representation. Previous works simply sum all feature vectors for all nodes in the graph to obtain the graph feature vector for drug predication. In this paper, we introduce a dummy super node that is connected with all nodes in the graph by a directed edge as the representation of the graph and modify the graph operation to help the dummy super node learn graph-level feature. Thus, we can handle graph-level classification and regression in the same way as node-level classification and regression. In addition, we apply focal loss to address class imbalance in drug datasets. The experiments on MoleculeNet show that our method can effectively improve the performance of molecular properties predication.
研究动机与目标
- 阐明在分子性质预测中需要超越节点级特征的图级表示的重要性。
- 引入一个伪超节点以学习图级特征,同时不改变局部节点表示。
- 调整图卷积操作和归一化以支持图级学习。
- 使用焦点损失解决药物数据集中的类别不平衡。
- 在MoleculeNet数据集的毒性、活性和溶解度任务上展示改进的性能。
提出的方法
- 添加一个与所有原子相连的伪超节点S,带有有向边以学习图级特征。
- 修改标准的GraphConv和GraphPool操作,使S能够聚合全局信息,同时保留局部节点特征。
- 应用节点级批量归一化以处理不同分子大小。
- 使用由伪节点特征输入的两层分类器进行图级预测。
- 用焦点损失替代交叉熵,以解决不均衡数据集中的类别不平衡。
- 在MoleculeNet数据集(Tox21、ToxCast、HIV、MUV、PCBA、FreeSolv)上进行评估,采用多种数据划分(Index、Random、Scaffold)。
实验结果
研究问题
- RQ1伪超节点是否能够实现分子有效的图级表示学习?
- RQ2所提出的图级方法是否在MoleculeNet上优于标准GraphConv的分子性质预测?
- RQ3焦点损失对不平衡药物数据集的性能有何影响?
- RQ4不同的数据集划分(Index、Random、Scaffold)如何影响图级任务的模型泛化?
主要发现
- 伪超节点使图级学习成为可能,并在多个MoleculeNet数据集上优于标准GraphConv的性能。
- 在分类任务(Tox21、ToxCast、MUV、PCBA)中,所提出的方法的AUC高于ECFP+LR和标准GraphConv,平均提升约1.5%。
- 在HIV数据集上,使用焦点损失带来进一步的性能提升,尤其在不平衡条件下。
- 在回归任务(FreeSolv)中,该方法通常优于GraphConv,尤其在Index和Random划分下,但Scaffold划分显示出更具挑战性的泛化。
- 节点级批量归一化和先ReLU再批量归一化有助于图级学习的训练稳定性。
- 该方法在某些划分和数据集上与从头计算方法具有竞争力甚至优于之。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。