[论文解读] Topology-Imbalance Learning for Semi-Supervised Node Classification
本文将拓扑不平衡作为半监督节点分类中的图结构特定问题引入,并提出 ReNode,一种由 Totoro 指标引导的模型无关重加权方法,以缓解拓扑不平衡效应。
The class imbalance problem, as an important issue in learning node representations, has drawn increasing attention from the community. Although the imbalance considered by existing studies roots from the unequal quantity of labeled examples in different classes (quantity imbalance), we argue that graph data expose a unique source of imbalance from the asymmetric topological properties of the labeled nodes, i.e., labeled nodes are not equal in terms of their structural role in the graph (topology imbalance). In this work, we first probe the previously unknown topology-imbalance issue, including its characteristics, causes, and threats to semi-supervised node classification learning. We then provide a unified view to jointly analyzing the quantity- and topology- imbalance issues by considering the node influence shift phenomenon with the Label Propagation algorithm. In light of our analysis, we devise an influence conflict detection -- based metric Totoro to measure the degree of graph topology imbalance and propose a model-agnostic method ReNode to address the topology-imbalance issue by re-weighting the influence of labeled nodes adaptively based on their relative positions to class boundaries. Systematic experiments demonstrate the effectiveness and generalizability of our method in relieving topology-imbalance issue and promoting semi-supervised node classification. The further analysis unveils varied sensitivity of different graph neural networks (GNNs) to topology imbalance, which may serve as a new perspective in evaluating GNN architectures.
研究动机与目标
- 识别并表征拓扑不平衡,作为超越数量不平衡的图特定偏差来源。
- 通过标签传播分析提供拓扑不平衡与数量不平衡的统一视角。
- 提出 Totoro 用于检测节点级拓扑冲突,提出 ReNode 在训练过程中自适应重加权带标签节点。
- 证明 ReNode 在多种 GNN 与数据集(包括大规模图)上的有效性和泛化性。
提出的方法
- 一种模型无关的重加权框架(ReNode),根据带标签节点相对于类别中心的拓扑位置来调整其训练权重。
- Totoro,是一个基于个性化 PageRank 的带标签节点影响冲突的拓扑相对位置度量,用以量化每个节点与类别中心的接近程度。
- 使用 Totoro 排名的余弦退火加权计划,以强调接近类别中心的节点并降低靠近类别边界节点的权重。
- 与标准类别频次重加权相结合,联合解决拓扑不平衡和数量不平衡(L_T 和 L_Q 损失)。
- 通过受 PPRGo 启发的 PageRank 矩阵估计实现大规模图的自归纳训练。
- 方程:Y = α(I − (1−α)A′)⁻¹Y⁰ 以及 T_v = E_{x∼P_{v,:}}[∑_{j≠y_v}(1/|C_j|)∑_{i∈C_j}P_{i,x}]。
实验结果
研究问题
- RQ1图中的拓扑不平衡有何特征,以及它如何影响半监督节点分类?
- RQ2在不改变编码器的前提下,面向拓扑的模型无关重加权方案是否能在拓扑不平衡下改善学习?
- RQ3Totoro 指标如何量化节点级拓扑冲突,它能否引导有效的训练权重调整?
- RQ4将面向拓扑的重加权与传统数量不平衡方法相结合,是否在不同数据集和 GNN 架构上带来稳健的提升?
- RQ5拓扑不平衡如何影响不同 GNN 架构的相对性能与鲁棒性?
主要发现
- 通过解决拓扑不平衡,ReNode 在六种 GNN 和五个传导数据集上稳定提升加权 F1 和 Macro-F1。
- Totoro 有效地通过影响冲突出现在类别边界附近的带标签节点,与冲突水平高时模型性能下降相关。
- 拓扑不平衡影响模型性能,当使用 ReNode 时较高的冲突水平带来更大性能提升,尤其在拓扑不平衡显著的数据集上。
- 将 ReNode 与标准数量不平衡策略结合时仍然有效,在不同不平衡水平下优于通用和图特定基线。
- 大规模实验表明,ReNode 在 Reddit 和 MAG-Scholar 上跨越不同标注预算提升归纳学习,尽管在极低标注率时出现冷启动问题。
- 不同的 GNN 对拓扑不平衡的敏感性不同,提示拓扑不平衡成为评估 GNN 架构的新维度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。