Skip to main content
QUICK REVIEW

[论文解读] Revisiting Semi-Supervised Learning with Graph Embeddings

Zhilin Yang, William W. Cohen|arXiv (Cornell University)|Mar 29, 2016
Topic Modeling参考文献 17被引用 284
一句话总结

Planetoid 框架在传导式和归纳式变体中联合学习图嵌入和标签预测,提升文本分类、 distant supervision 与 实体分类任务的半监督学习效果。

ABSTRACT

We present a semi-supervised learning framework based on graph embeddings. Given a graph between instances, we train an embedding for each instance to jointly predict the class label and the neighborhood context in the graph. We develop both transductive and inductive variants of our method. In the transductive variant of our method, the class labels are determined by both the learned embeddings and input feature vectors, while in the inductive variant, the embeddings are defined as a parametric function of the feature vectors, so predictions can be made on instances not seen during training. On a large and diverse set of benchmark tasks, including text classification, distantly supervised entity extraction, and entity classification, we show improved performance over many of the existing models.

研究动机与目标

  • 通过图结构利用未标记数据以提高预测准确性。
  • 联合学习节点嵌入和标签预测器以利用图的分布信息。
  • 开发传导式和归纳式变体以处理已见与未见实例。
  • 在文本分类、远程监督提取和实体分类等多个领域展示有效性。

提出的方法

  • 定义一个神经网络,对每个实例的嵌入 e_i 与标准分类器特征一起学习。
  • 将损失公式化为 L_s + lambda L_u,其中 L_s 为有监督标签预测,L_u 预测图上下文。
  • 使用图遍历和基于标签的上下文的混合,从上下文分布 p(i, c, gamma) 中采样 (i, c, gamma) 对,并进行负采样。
  • 使用类似 Skipgram 的目标来进行上下文预测,采用基于 sigmoid 的二分类。
  • 传导式变体将 x 派生表示和嵌入派生表示连接起来用于最终 softmax 预测;嵌入与其他参数共同学习。
  • 归纳式变体将 e 定义为输入特征 x 的参数化函数,从而对未见实例进行预测;训练仅更新参数 theta,嵌入由 x 导出。
  • 训练通过随机梯度下降进行,交替优化 L_s 和 L_u,包括对 L_u 的预训练阶段。

实验结果

研究问题

  • RQ1将嵌入和标签预测器联合训练是否比图拉普拉斯正则化在半监督学习上有改进?
  • RQ2传导式与归纳式变体在准确性和泛化方面的比较?
  • RQ3Planetoid 在文本分类、远程监督实体提取和实体分类中的表现如何?
  • RQ4通过随机游走和基于标签的上下文采样对性能的影响?

主要发现

  • 归纳式 Planetoid-I 在多项指标上领先第二佳归纳方法,最多提高 18.7 百分点,平均 7.8 百分点。
  • Planetoid 的归纳与传导变体中最好的版本在多达 8.5 个百分点、平均 4.1 个百分点超越其他方法。
  • 在文本分类(Citeseer、Cora、Pubmed)上,Planetoid-I 往往取得最佳归纳结果,Planetoid-T 在 Cora 和 Pubmed 上取得最佳传导结果,Planetoid-G 超过 GraphEmb。
  • 在远程监督实体提取(DIEL)中,Planetoid-I 和 Planetoid-T 在 recall@k 指标显著优于竞争基线,Planetoid 变体在多次运行中达到最佳结果。
  • 对于 NELL 实体分类,Planetoid-I 在各种标注率下显著优于最强的归纳基线,且 GraphEmb 基变体在图结构信息高度丰富时显示出强劲提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。