Skip to main content
QUICK REVIEW

[논문 리뷰] On the Use of ArXiv as a Dataset

Colin B. Clement, Matthew Bierbaum|arXiv (Cornell University)|2019. 04. 30.
Scientific Computing and Data Management참고 문헌 20인용 수 23
한 줄 요약

이 논문은 대규모 다중모odal 및 관계형 과학적 데이터 모델링을 위한 표준화된 접근을 가능하게 하는 오픈소스 파이프라인을 소개한다. 150만 개의 논문에서 유도된 670만 개의 인용 간선을 포함하는 인용 그래프를 구축하고, 전체 텍스트, 초록, 제목 및 공인용 특징을 조합함으로써 다중분류 카테고리 분류 정확도를 78.4% (상위 1위)로 끌어올렸으며, 개별 모odal 기반 모델보다 유의하게 뛰어나다.

ABSTRACT

The arXiv has collected 1.5 million pre-print articles over 28 years, hosting literature from scientific fields including Physics, Mathematics, and Computer Science. Each pre-print features text, figures, authors, citations, categories, and other metadata. These rich, multi-modal features, combined with the natural graph structure---created by citation, affiliation, and co-authorship---makes the arXiv an exciting candidate for benchmarking next-generation models. Here we take the first necessary steps toward this goal, by providing a pipeline which standardizes and simplifies access to the arXiv's publicly available data. We use this pipeline to extract and analyze a 6.7 million edge citation graph, with an 11 billion word corpus of full-text research articles. We present some baseline classification results, and motivate application of more exciting generative graph models.

연구 동기 및 목표

  • 대규모 다중모달 및 관계형 과학적 데이터 모델링을 위한 표준화되고 접근 가능하며 비교 가능한 벤치마크의 부족을 해결하기 위해.
  • arXiv 메타데이터, 전체 텍스트, 인용 네트워크를 다운로드하고 정규화하며 구조화하는 통합된 오픈소스 파이프라인을 제공하기 위해.
  • 차세대 그래프 신경망 및 다중모달 모델을 위한 기준 데이터셋으로 arXiv를 확립하기 위해.
  • 텍스트와 관계 구조를 통합한 기준 분류 작업을 통해 arXiv 데이터셋의 유용성을 입증하기 위해.
  • 풍부하고 표준화된 데이터셋을 통해 향후 연구자들이 링크 예측, 주제 모델링, 텍스트 분할, 자동 요약 등에 활용할 수 있도록 하기 위해.

제안 방법

  • 저자들은 Open Archives Initiative (OAI)를 통해 arXiv 메타데이터를 수확하고 arXiv의 공개 API를 통해 대량의 PDF 파일을 다운로드하는 오픈소스 파이프라인을 개발했다.
  • 원본 PDF 파일은 텍스트로 변환되었고, 내부 arXiv ID가 추출되어 전체 텍스트 문서 내의 참조를 식별함으로써 공인용 네트워크를 구축했다.
  • 저자 이름은 전용 스크립트를 사용해 정규화되고 구조화된 목록으로 분할되어 데이터 일관성을 향상시켰다.
  • 최종 데이터셋은 150만 개의 논문, 670만 개의 인용 간선, 그리고 풍부한 메타데이터와 관계 구조를 포함한 110억 단어의 전체 텍스트 코퍼스를 포함한다.
  • 기준 분류 작업은 유니버설 문장 인코더에서 유도된 임베딩을 사용한 로지스틱 회귀를 통해 수행되었으며, 제목, 초록, 전체 텍스트, 공인용 그래프의 특징을 통합했다.
  • 파워 법칙 지수와 네트워크 통계는 'networkx'와 'powerlaw' 파이썬 패키지를 사용해 인용 그래프의 스케일프리 성질을 특성화했다.

실험 결과

연구 질문

  • RQ1arXiv는 체계적으로 표준화되고 구조화되어 대규모 다중모달 및 관계형 과학적 모델링을 위한 기준 데이터셋으로 활용될 수 있는가?
  • RQ2다른 텍스트 모달리티(제목, 초록, 전체 텍스트)와 관계 특징(공인용)은 논문 카테고리 분류 성능에 어떻게 기여하는가?
  • RQ3arXiv 인용 그래프의 구조적 성질은 무엇이며, 다른 잘 알려진 인용 네트워크와 비교해보면 어떠한가?
  • RQ4텍스트 기반 모델에 그래프 구조를 통합할 경우 과학 문헌 분류 정확도가 얼마나 향상되는가?
  • RQ5arXiv 데이터셋은 표준화되고 재현 가능한 방식으로 링크 예측, 주제 모델링, 텍스트 생성 등의 고급 작업을 지원할 수 있는가?

주요 결과

  • arXiv 인용 그래프는 135만 개의 노드와 672만 개의 유도 간선을 포함하며, 평균 차수는 9.933이고, 내차수의 파워 법칙 지수는 2.93, 외차수는 3.93이다.
  • 가장 큰 약한 연결 성분(WCC)은 그래프의 62%를 차지하여 다소 연결되어 있지만 분할된 구조임을 시사한다.
  • 전체 텍스트 특징만으로도 카테고리 분류의 상위 1위 정확도가 64.2%에 도달했으며, 제목(36.6%)과 초록(46.0%)만 사용했을 때보다 유의미하게 높았다.
  • 공인용 특징을 통합함으로써 전체 텍스트만 사용했을 때의 상위 1위 정확도 64.2%에서 제목, 초록, 전체 텍스트, 공인용을 모두 조합한 경우 78.4%로 향상되었다.
  • 제거 실험 결과, 전체 텍스트 특징을 제거했을 때 성능이 가장 크게 하락(상위 1위 정확도 59.0%로)하여 전체 텍스트 특징이 분류에 가장 큰 기여를 했다는 것을 시사한다.
  • 전체 특징 세트의 퍼플렉서티는 2.3으로 떨어졌으며, 이는 매우 확신 있는 정확한 예측을 의미한다. 반면 제목만 사용했을 경우 퍼플렉서티는 12.7이었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.