Skip to main content
QUICK REVIEW

[論文レビュー] Paper2vec: Citation-Context Based Document Distributed Representation for Scholar Recommendation

Tian Han, Hankz Hankui Zhuo|arXiv (Cornell University)|Mar 20, 2017
Topic Modeling参考文献 12被引用数 26
ひとこと要約

Paper2vecは、引用文脈に基づく分散表現モデルを提案し、共起する引用のない文書間の類似性測定を可能にするために、重み付き引用文脈上で行列因子分解を用いて文書ベクトルを学習する。これは、共起ベースの手法よりも25%優れており、人気論文へのバイアスを低減することで、推薦の新規性が向上している。

ABSTRACT

Due to the availability of references of research papers and the rich information contained in papers, various citation analysis approaches have been proposed to identify similar documents for scholar recommendation. Despite of the success of previous approaches, they are, however, based on co-occurrence of items. Once there are no co-occurrence items available in documents, they will not work well. Inspired by distributed representations of words in the literature of natural language processing, we propose a novel approach to measuring the similarity of papers based on distributed representations learned from the citation context of papers. We view the set of papers as the vocabulary, define the weighted citation context of papers, and convert it to weight matrix similar to the word-word cooccurrence matrix in natural language processing. After that we explore a variant of matrix factorization approach to train distributed representations of papers on the matrix, and leverage the distributed representations to measure similarities of papers. In the experiment, we exhibit that our approach outperforms state-of-theart citation-based approaches by 25%, and better than other distributed representation based methods.

研究の動機と目的

  • 引用ベースの類似度手法が、文書間で共有される引用リンクを必要とするという制限を解消すること。
  • 共通の引用がない場合でも、任意の2篇の論文間での文書類似度計算を可能にすること。
  • 全文アクセスを必要としない方法を構築し、引用メタデータのみを備えたデータベースに適用可能にすること。
  • 新論文が継続的に追加される動的な学者データベースに対応するオンライン学習を可能にすること。
  • 人気論文や高頻度引用論文へのバイアスを低減することで、推薦の新規性を向上させること。

提案手法

  • 各論文を語彙内の「単語」とみなす。引用文脈が、表現学習のための「文」となる。
  • 引用確率を用いて、自然言語処理における単語共起行列に類似した重み付き引用文脈行列を構築する。
  • 各論文のための密な低次元分散表現(ベクトル)を学習するため、行列因子分解の変種を適用する。
  • 学習済み論文ベクトル間のコサイン類似度を、文書検索および推薦の類似度測定に用いる。
  • 新しい論文がデータベースに追加された際に、逐次的に表現を更新できる確率的・オンライン学習を可能にする。
  • word2vecにインspiredされた、ベクトル代数的性質(例:類推的推論)を活用し、論文間の意味的関係を探索する。

実験結果

リサーチクエスチョン

  • RQ1引用文脈に基づく分散表現が、共起ベースの手法を上回る学者推薦を実現できるか?
  • RQ2共有引用がない状況でも、引用文脈に基づく表現学習が論文間の意味的類似度をどの程度捉えられるか?
  • RQ3推薦精度の観点で、Paper2vecは最先端の引用ベースおよび分散表現手法と比較してどのように差をつけるか?
  • RQ4共起モデルと比較して、提案手法は推薦における人気バイアスを低減するか?
  • RQ5学習済みの論文ベクトルは、トピック間の類推的推論のような新しい推薦パターンをサポートできるか?

主な発見

  • 評価されたデータセットにおいて、Paper2vecは最先端の引用ベース手法よりも推薦精度で25%優れている。
  • 全文データを一切使用しないにもかかわらず、他の分散表現ベース手法よりも優れた性能を達成している。
  • エントロピーを用いた新規性指標で、Paper2vecは共起モデルおよび他の分散モデルを上回る高い新規性を示している。
  • エントロピー新規性指標は、Paper2vecが人気論文へのバイアスを低減し、文書全体にわたって推薦をより均等に分配していることを示している。
  • 確率的学習プロセスにより、効率的なオンライン学習が可能となり、新論文追加時における段階的更新が可能である。
  • モデルのベクトル空間は、類推的推論(例:ベクトル演算)の可能性を支持しており、論文間の意味的関係を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。