[论文解读] A Simple Baseline Algorithm for Graph Classification
本文提出一种简单、快速的图分类基线,使用归一化拉普拉斯的最小正特征值作为谱特征,并结合随机森林分类器,在标准数据集上实现了在不进行大量超参数调优的情况下的具有竞争力的结果。
Graph classification has recently received a lot of attention from various fields of machine learning e.g. kernel methods, sequential modeling or graph embedding. All these approaches offer promising results with different respective strengths and weaknesses. However, most of them rely on complex mathematics and require heavy computational power to achieve their best performance. We propose a simple and fast algorithm based on the spectral decomposition of graph Laplacian to perform graph classification and get a first reference score for a dataset. We show that this method obtains competitive results compared to state-of-the-art algorithms.
研究动机与目标
- 激励一个轻量级的图分类基线,仅依赖图结构,不使用节点特征。
- 探索归一化拉普拉斯的谱属性是否可以作为有效的分类图嵌入。
- 评估所提基线在性能与计算时间上相对于最先进图分类方法的表现。
提出的方法
- 构建每个图的归一化拉普拉斯矩阵,并将其最小的 k 个正特征值作为谱特征(如有需要则用零填充)。
- 用有序谱(SF)表示图,该谱在节点标记下对置换不变。
- 在谱特征上使用标准分类器(带平衡类别权重的随机森林)作为基线模型。
- 通过跨数据集实验评估嵌入维度 k 和 RFC 超参数的鲁棒性。
- 使用数据集 MT, PTC, EZ, PF, DD, NCI1,与其他图分类方法(EMD, PM, FB, DyF, SGE)进行比较。
实验结果
研究问题
- RQ1当无节点特征时,简单的、置换不变的谱表示是否足以实现有竞争力的图分类?
- RQ2谱特征维度和分类器选择如何影响在标准图数据集上的准确性和鲁棒性?
- RQ3提议的 SF + RFC 基线在准确性与计算时间方面与最先进方法相比如何?
主要发现
| MT数据集 | PTC数据集 | EZ数据集 | PF数据集 | DD数据集 | NCI1数据集 |
|---|---|---|---|---|---|
| 86.1 | 57.7 | 36.8 | - | - | 72.7 |
| 85.6 | 59.4 | 28.2 | - | 75.6 | 69.7 |
| 84.7 | 55.6 | 29.0 | 70.0 | - | 62.9 |
| 86.3 | 56.2 | 26.6 | 73.1 | - | 66.6 |
| 87.2 | 60.0 | 40.7 | - | 76.6 | - |
| 88.4 | 62.8 | 43.7 | 73.6 | 75.4 | 75.2 |
- SF + RFC 在六个数据集中中的五个达到最佳性能(MT, PTC, EZ, PF, NCI1)。
- 使用 RFC 的基线嵌入计算极快,在所述设置下总实验时间少于5分钟。
- 不同的嵌入维度显示,即使是较小的 k(如 k=5)也能获得有竞争力的结果,较大的 k 提供的增益有限。
- 该方法不需要对每个数据集进行大量超参数调优,在 RFC 超参数方面保持鲁棒。
- 与其他方法(EMD, PM, FB, DyF, SGE)相比,SF + RFC 在多数据集上表现出具有竞争力的准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。