[论文解读] GNNEvaluator: Evaluating GNN Performance On Unseen Graphs Without Labels
提出 GNNEvaluator,一种两阶段框架,使用 DiscGraph 集合在无标签的未见图上估计一个训练良好的 GNN 的节点分类准确率,在多数据集上相较改编的 CNN 基线实现更低的 MAE。
Evaluating the performance of graph neural networks (GNNs) is an essential task for practical GNN model deployment and serving, as deployed GNNs face significant performance uncertainty when inferring on unseen and unlabeled test graphs, due to mismatched training-test graph distributions. In this paper, we study a new problem, GNN model evaluation, that aims to assess the performance of a specific GNN model trained on labeled and observed graphs, by precisely estimating its performance (e.g., node classification accuracy) on unseen graphs without labels. Concretely, we propose a two-stage GNN model evaluation framework, including (1) DiscGraph set construction and (2) GNNEvaluator training and inference. The DiscGraph set captures wide-range and diverse graph data distribution discrepancies through a discrepancy measurement function, which exploits the outputs of GNNs related to latent node embeddings and node class predictions. Under the effective training supervision from the DiscGraph set, GNNEvaluator learns to precisely estimate node classification accuracy of the to-be-evaluated GNN model and makes an accurate inference for evaluating GNN model performance. Extensive experiments on real-world unseen and unlabeled test graphs demonstrate the effectiveness of our proposed method for GNN model evaluation.
研究动机与目标
- 解决在协变量偏移下,对未见的无标签图上评估训练良好的 GNN 的问题。
- 开发一个两阶段框架,以模拟分布差异并学习一个准确性估计器。
- 利用固定 GNN 的潜在嵌入和预测来构建差异表示。
- 提供一个推断过程,在没有真值标签的未知测试图上输出估计的准确性。
提出的方法
- 通过从观测的训练图中提取种子子图、应用多样化增强,并从 GNN 潜在嵌入中计算差异属性,构造 DiscGraph 集合。
- 定义一个差异测量函数 D,将嵌入空间归一化以在元图和训练图之间创建节点差异特征。
- 用其地面真值标签上的实际节点分类准确率对每个 DiscGraph 进行标注,训练时得到 y_disc^{i}。
- 将 GNNEvaluator 训练为两层 GCN 回归器,带有池化层,从每个 DiscGraph 产生一个标量准确率估计。
- 在推理阶段,计算未见图 T 相对于 S 的差异特征,并使用训练好的 GNNEvaluator 在不需要标签的情况下估计 Acc(T)。
实验结果
研究问题
- RQ1GNNEvaluator 是否能够在未见的无标签图上准确估计一个训练良好的 GNN 的节点分类准确率?
- RQ2在不同的未见图分布下,基于 DiscGraph 的方法与替代评估方法相比有何优劣?
- RQ3差异节点属性对评估准确性的贡献有多大?
- RQ4为在不同 GNN 类型和数据集上实现鲁棒评估,需要多少 DiscGraph?
主要发现
- GNNEvaluator 在六个评估场景中始终实现低于自适应 CNN 基线的 MAE(例如跨六个跨数据集设置的平均值:10.71、12.86、16.38、10.71、6.79、7.80)。
- 带有差异属性的 DiscGraph 集合比不带此属性的元图集合提供更可靠的评估,降低了对不同 GNN 类型的估计方差。
- 在 ACMv9、DBLPv8、Citatonv2 数据集上,GNNEvaluator 在评估 GCN、GraphSAGE、GAT、GIN 模型(以及基线 MLP)时表现出强劲表现,适用于多种在用训练/测试划分。
- 消融研究表明,包含差异节点属性(DiscAttr)相较仅使用不含差异信息的元图,能提升评估准确性。
- 可视化和分析表明,DiscGraph 的差异属性捕捉到训练图与未见图在嵌入空间中的有意义差异。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。