[论文解读] Active Learning for Graph Embedding
本文提出了一种新型框架——主动图嵌入(Active Graph Embedding, AGE),通过迭代选择最具信息量的节点进行标注,联合优化主动学习与图嵌入。该方法基于不确定性、代表性(通过信息密度和PageRank中心性衡量)以及时间敏感加权,实现对图结构与嵌入表示的动态平衡。AGE在基线方法上显著提升了节点分类性能,在Cora和PubMed数据集上分别实现了最高达3.7%的MicroF1提升,其核心在于训练过程中动态地从图结构导向转向基于嵌入的判据。
Graph embedding provides an efficient solution for graph analysis by converting the graph into a low-dimensional space which preserves the structure information. In contrast to the graph structure data, the i.i.d. node embedding can be processed efficiently in terms of both time and space. Current semi-supervised graph embedding algorithms assume the labelled nodes are given, which may not be always true in the real world. While manually label all training data is inapplicable, how to select the subset of training data to label so as to maximize the graph analysis task performance is of great importance. This motivates our proposed active graph embedding (AGE) framework, in which we design a general active learning query strategy for any semi-supervised graph embedding algorithm. AGE selects the most informative nodes as the training labelled nodes based on the graphical information (i.e., node centrality) as well as the learnt node embedding (i.e., node classification uncertainty and node embedding representativeness). Different query criteria are combined with the time-sensitive parameters which shift the focus from graph based query criteria to embedding based criteria as the learning progresses. Experiments have been conducted on three public data sets and the results verified the effectiveness of each component of our query strategy and the power of combining them using time-sensitive parameters. Our code is available online at: https://github.com/vwz/AGE.
研究动机与目标
- 解决在人工标注不可行时,如何选择最优标注节点以进行半监督图嵌入的问题。
- 设计一种专为图结构数据定制的主动学习策略,同时利用结构属性与学习到的节点嵌入。
- 通过交错执行标签查询与模型训练周期,实现主动学习与图嵌入之间的相互增强。
- 评估多种信息量标准(不确定性、代表性与图中心性)结合时间敏感权重的有效性。
- 证明联合优化主动学习与图嵌入优于流水线方法及标准基线模型。
提出的方法
- 提出一种基于三种信息量评分的多准则主动学习查询策略:信息熵(不确定性)、信息密度(代表性)与PageRank中心性(图结构)。
- 通过随时间变化的权重线性组合这些评分,早期优先考虑图中心性,随着嵌入质量提升逐步转向不确定性与密度。
- 在每个训练周期结束时执行标签查询,使图嵌入模型能够基于新标注节点更新其表示。
- 以GCN作为基础图嵌入模型,但AGE框架可泛化应用于任意半监督图嵌入算法。
- 采用动态加权机制,其中αt、βt与γt随时间调整中心性、不确定性和代表性对最终决策的贡献。
- 在引文网络(Cora、Citeseer、PubMed)上评估该框架,以节点分类为主要任务。
实验结果
研究问题
- RQ1将基于图结构的标准(如中心性)与基于嵌入的标准(如不确定性和代表性)相结合,能否提升图嵌入中的主动学习性能?
- RQ2随时间动态调整查询标准权重,对主动图嵌入性能有何影响?
- RQ3将主动学习与图嵌入训练交错进行(而非采用流水线方式),是否能带来更好的模型性能?
- RQ4查询策略中的各个组件(如熵、密度、中心性)对最终性能的贡献如何?
- RQ5AGE在节点分类任务中,相较于标准主动学习基线与半监督GCN基线,性能提升程度如何?
主要发现
- 在Citeseer数据集中,AGE相较于随机基线,将节点分类准确率提升了7.6%(MacroF1)与3.2%(MicroF1),在Cora与PubMed上也取得了类似提升。
- 与仅使用熵与密度相比,将PageRank中心性引入查询策略后,平均性能提升2.0%(MacroF1)与0.9%(MicroF1)。
- 相较于固定权重组合,采用时间敏感参数可进一步平均提升0.9%(MacroF1)与1.3%(MicroF1)。
- 流水线基线(仅在GCN训练完成后才标注节点)表现逊于AGE,原因在于初始嵌入质量差,导致标签选择不理想。
- 在Cora数据集中,AGE相较半监督GCN基线,实现了3.7%的MicroF1与3.5%的MacroF1提升,证明其优于标准方法。
- 仅依赖信息密度可能导致性能不稳定,甚至在某些情况下产生负面影响,凸显了结合中心性与不确定性等互补标准的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。