Skip to main content
QUICK REVIEW

[논문 리뷰] Paper2vec: Citation-Context Based Document Distributed Representation for Scholar Recommendation

Tian Han, Hankz Hankui Zhuo|arXiv (Cornell University)|2017. 03. 20.
Topic Modeling참고 문헌 12인용 수 26
한 줄 요약

Paper2vec는 인용 컨텍스트 기반 분산 표현 모델을 제안하여 학자 추천을 수행하며, 공유된 인용 링크 없이도 유사도 측정이 가능하도록 가중치가 부여된 인용 컨텍스트에 대한 행렬 분해를 통해 문서 벡터를 학습한다. 이는 공개된 인용 기반 방법보다 25% 높은 성능을 보이며, 인기 편향을 줄여 더 뛰어난 신선도를 보이는 추천을 제공한다.

ABSTRACT

Due to the availability of references of research papers and the rich information contained in papers, various citation analysis approaches have been proposed to identify similar documents for scholar recommendation. Despite of the success of previous approaches, they are, however, based on co-occurrence of items. Once there are no co-occurrence items available in documents, they will not work well. Inspired by distributed representations of words in the literature of natural language processing, we propose a novel approach to measuring the similarity of papers based on distributed representations learned from the citation context of papers. We view the set of papers as the vocabulary, define the weighted citation context of papers, and convert it to weight matrix similar to the word-word cooccurrence matrix in natural language processing. After that we explore a variant of matrix factorization approach to train distributed representations of papers on the matrix, and leverage the distributed representations to measure similarities of papers. In the experiment, we exhibit that our approach outperforms state-of-theart citation-based approaches by 25%, and better than other distributed representation based methods.

연구 동기 및 목표

  • 문서 간 공유된 인용 연결이 필요로 하는 인용 기반 유사도 방법의 한계를 해결하기 위해.
  • 공통 인용이 없는 경우에도 어떤 두 논문 간의 문서 유사도를 계산할 수 있도록 하기 위해.
  • 전체 텍스트 접근이 필요로 하지 않는 방법을 개발하여, 인용 메타데이터만 있는 데이터베이스에 적용 가능하게 하기 위해.
  • 지속적으로 새로운 논문이 추가되는 동적 학자 데이터베이스를 위한 온라인 학습을 지원하기 위해.
  • 높이 인용되거나 인기 있는 논문에 대한 편향을 줄여 추천의 새로운 가능성을 향상시키기 위해.

제안 방법

  • 각 논문을 어휘 내의 '단어'로 간주하고, 인용 컨텍스트를 표현 학습을 위한 '문장'으로 사용하기 위해.
  • 인용 확률을 사용하여 자연어 처리에서의 단어 공출현 행렬과 유사한 가중치가 부여된 인용 컨텍스트 행렬을 구성하기 위해.
  • 각 논문에 대해 조밀하고 저차원의 분산 표현(벡터)을 학습하기 위해 행렬 분해의 변종을 적용하기 위해.
  • 학습된 논문 벡터 간 코사인 유사도를 문서 검색 및 추천을 위한 유사도 측정 기준으로 사용하기 위해.
  • 새로운 논문이 데이터베이스에 추가될 때마다 표현을 점진적으로 업데이트할 수 있도록 스트리밍 및 온라인 학습을 가능하게 하기 위해.
  • word2vec에 영감을 받아, 벡터 대수적 성질(예: 유추적 추론)을 활용하여 논문 간 의미적 관계를 탐색하기 위해.

실험 결과

연구 질문

  • RQ1인용 컨텍스트에 기반한 논문의 분산 표현 학습이 공출현 기반 방법을 초월하여 학자 추천을 향상시킬 수 있는가?
  • RQ2공통 인용이 없는 상황에서 인용 컨텍스트 기반 표현 학습이 논문 간 의미적 유사도를 얼마나 잘 포착할 수 있는가?
  • RQ3추천 정확도 측면에서 Paper2vec는 최신 기술의 인용 기반 및 분산 표현 방법과 비교해 어떻게 성능을 내는가?
  • RQ4제안된 방법은 공출현 모델 대비 추천에서 인기 편향을 줄이는가?
  • RQ5학습된 논문 벡터는 주제 간 유추적 추론과 같은 새로운 추천 패턴을 지원할 수 있는가?

주요 결과

  • Paper2vec는 평가된 데이터셋에서 공출현 기반 방법보다 추천 정확도에서 25% 높은 성능을 보였다.
  • 모델는 전체 텍스트 데이터를 사용하지 않음에도 불구하고 다른 분산 표현 기반 방법보다 뛰어난 성능을 달성했다.
  • Paper2vec는 엔트로피 기반의 신선도 측정 기준에서 더 높은 추천의 새로운 가능성을 보였으며, 공출현 모델과 다른 분산 모델 모두를 능가했다.
  • 엔트로피 기반의 신선도 지표는 Paper2vec가 인기 편향을 줄여 문서 간 추천 분포를 더 균형 있게 만든다는 것을 보여주었다.
  • 스토캐스틱 학습 프로세스는 효율적인 온라인 학습을 가능하게 하여, 새로운 논문이 추가될 때마다 점진적인 업데이트를 허용한다.
  • 모델의 벡터 공간은 잠재적인 유추적 추론(예: 벡터 산술)을 지원하며, 논문 간 의미적 관계를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.