[论文解读] N-Gram Graph: Simple Unsupervised Representation for Graphs, with Applications to Molecules
引入 N-gram Graph,一种用于分子的无监督、无需训练的图表示,它通过短步行从顶点嵌入构建图嵌入,在多种分子性质任务上实现强预测性能。
Machine learning techniques have recently been adopted in various applications in medicine, biology, chemistry, and material engineering. An important task is to predict the properties of molecules, which serves as the main subroutine in many downstream applications such as virtual screening and drug design. Despite the increasing interest, the key challenge is to construct proper representations of molecules for learning algorithms. This paper introduces the N-gram graph, a simple unsupervised representation for molecules. The method first embeds the vertices in the molecule graph. It then constructs a compact representation for the graph by assembling the vertex embeddings in short walks in the graph, which we show is equivalent to a simple graph neural network that needs no training. The representations can thus be efficiently computed and then used with supervised learning methods for prediction. Experiments on 60 tasks from 10 benchmark datasets demonstrate its advantages over both popular graph neural networks and traditional representation methods. This is complemented by theoretical analysis showing its strong representation and prediction power.
研究动机与目标
- 激励分子性质预测以及对有效图表示的需求。
- 提出一种基于顶点嵌入和 n-gram 步行的无监督、无需训练的图表示。
- 表明该方法等价于一个没有参数和训练的简单 GNN。
- 展示在来自 10 个基准数据集的 60 个任务上的强预测性能。
- 提供表示能力和预测保证的理论分析。
提出的方法
- 使用基于属性的 one-hot 编码对图顶点进行嵌入,并通过从邻居属性预测顶点属性来学习顶点嵌入矩阵 W(无监督训练)。
- 通过沿着步行取顶点嵌入的逐元素乘积并对长度为 n 的所有步行求和来构造 n-gram 嵌入。
- 将 f_(1), ..., f_(T) 连接起来形成图嵌入 f_G,表示至步长 T 的图。
- 表明 n-gram 图嵌入等价于一个参数无关的 Graph Neural Network,具有迭代的邻居聚合。
- 给出运行时分析:O(r T (m + m_e)),其中 r 是嵌入维度,T 是步长,m 和 m_e 分别是顶点和边。
实验结果
研究问题
- RQ1无监督、简单的图表示是否能在没有端到端在带标签数据上训练的情况下实现具有竞争力的分子性质预测?
- RQ2当通过顶点嵌入对 n-gram 步行统计进行嵌入时,关于图的信息保留多少?
- RQ3提出的 N-gram 图表示是否可跨数据集和任务迁移?
- RQ4超参数 r(嵌入维度)和 T(步长)如何影响性能?
主要发现
- N-gram 图结合简单的 XGBoost 或 Random Forest,在 60 个任务中常常优于传统指纹和若干 GNN。
- 在一个数据集上训练的嵌入可以迁移到其他数据集,甚至随机嵌入对某些任务也能获得竞争结果。
- 该方法在 QM9/QM8 数据集上的性能优于或接近如 DTNN/MPNN 等基于三维信息的模型。
- 增大 T 通常提升性能,而更大的 r 影响较小。
- 该方法构建表示更快,优于许多 GNN,并且与基于核的方法相竞争。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。