Skip to main content
QUICK REVIEW

[论文解读] Paper2vec: Citation-Context Based Document Distributed Representation for Scholar Recommendation

Tian Han, Hankz Hankui Zhuo|arXiv (Cornell University)|Mar 20, 2017
Topic Modeling参考文献 12被引用 26
一句话总结

Paper2vec 提出了一种基于引用上下文的分布式表示模型,用于学者推荐,通过在加权引用上下文上进行矩阵分解来学习文档向量,从而实现在无需共享引用的情况下进行相似性度量。相比最先进的基于引用的方法,其推荐准确率提升了25%,并通过减少流行度偏差,展现出更优的推荐新颖性。

ABSTRACT

Due to the availability of references of research papers and the rich information contained in papers, various citation analysis approaches have been proposed to identify similar documents for scholar recommendation. Despite of the success of previous approaches, they are, however, based on co-occurrence of items. Once there are no co-occurrence items available in documents, they will not work well. Inspired by distributed representations of words in the literature of natural language processing, we propose a novel approach to measuring the similarity of papers based on distributed representations learned from the citation context of papers. We view the set of papers as the vocabulary, define the weighted citation context of papers, and convert it to weight matrix similar to the word-word cooccurrence matrix in natural language processing. After that we explore a variant of matrix factorization approach to train distributed representations of papers on the matrix, and leverage the distributed representations to measure similarities of papers. In the experiment, we exhibit that our approach outperforms state-of-theart citation-based approaches by 25%, and better than other distributed representation based methods.

研究动机与目标

  • 解决基于引用相似性的方法要求文档之间存在共享引用链接的局限性。
  • 实现在任意两篇论文之间(即使缺乏重叠引用)的文档相似性计算。
  • 开发一种无需全文访问的方法,使其适用于仅包含引用元数据的数据库。
  • 支持在线学习,以适应持续新增论文的动态学者数据库。
  • 通过减少对高被引或热门论文的偏向,提升推荐的新颖性。

提出的方法

  • 将每篇论文视为词汇表中的一个'词',引用上下文则构成表示学习的'句子'。
  • 构建一个加权引用上下文矩阵,类似于自然语言处理中的词共现矩阵,使用引用概率作为权重。
  • 应用一种矩阵分解的变体,为每篇论文学习密集的、低维的分布式表示(向量)。
  • 使用学习到的论文向量之间的余弦相似度作为文档检索与推荐的相似性度量。
  • 支持随机性、在线学习,以便在新论文加入数据库时增量更新表示。
  • 借鉴 word2vec 的思想,利用向量的代数性质(例如类比推理)探索论文之间的语义关系。

实验结果

研究问题

  • RQ1在引用上下文上训练的论文分布式表示,是否能超越共现方法,提升学者推荐效果?
  • RQ2在缺乏共享引用的情况下,基于引用上下文的表示学习在多大程度上能捕捉论文之间的语义相似性?
  • RQ3Paper2vec 在推荐准确率方面,与最先进的基于引用和分布式表示的方法相比表现如何?
  • RQ4与共现模型相比,所提出的方法是否能减少推荐中的流行度偏差?
  • RQ5学习到的论文向量是否能支持新颖的推荐模式,例如主题之间的类比推理?

主要发现

  • 在评估数据集上,Paper2vec 相比最先进的基于引用的方法,推荐准确率提升了25%。
  • 即使未使用全文数据,该模型在与其他基于分布式表示的方法对比时仍表现出更优的性能。
  • Paper2vec 在推荐新颖性方面表现更优,通过基于熵的推荐新颖性度量,优于共现模型及其他分布式模型。
  • 熵新颖性度量表明,Paper2vec 减少了流行度偏差,使推荐在文档间分布更加均衡。
  • 随机训练过程支持高效的在线学习,可在新增论文时实现增量更新。
  • 该模型的向量空间支持潜在的类比推理(例如向量运算),暗示了论文之间存在语义关系。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。