QUICK REVIEW

[논문 리뷰] On the Use of ArXiv as a Dataset

Colin B. Clement, Matthew Bierbaum|arXiv (Cornell University)|2019. 04. 30.

Scientific Computing and Data Management참고 문헌 20인용 수 23

한 줄 요약

이 논문은 대규모 다중모odal 및 관계형 과학적 데이터 모델링을 위한 표준화된 접근을 가능하게 하는 오픈소스 파이프라인을 소개한다. 150만 개의 논문에서 유도된 670만 개의 인용 간선을 포함하는 인용 그래프를 구축하고, 전체 텍스트, 초록, 제목 및 공인용 특징을 조합함으로써 다중분류 카테고리 분류 정확도를 78.4% (상위 1위)로 끌어올렸으며, 개별 모odal 기반 모델보다 유의하게 뛰어나다.

ABSTRACT

The arXiv has collected 1.5 million pre-print articles over 28 years, hosting literature from scientific fields including Physics, Mathematics, and Computer Science. Each pre-print features text, figures, authors, citations, categories, and other metadata. These rich, multi-modal features, combined with the natural graph structure---created by citation, affiliation, and co-authorship---makes the arXiv an exciting candidate for benchmarking next-generation models. Here we take the first necessary steps toward this goal, by providing a pipeline which standardizes and simplifies access to the arXiv's publicly available data. We use this pipeline to extract and analyze a 6.7 million edge citation graph, with an 11 billion word corpus of full-text research articles. We present some baseline classification results, and motivate application of more exciting generative graph models.

연구 동기 및 목표

대규모 다중모달 및 관계형 과학적 데이터 모델링을 위한 표준화되고 접근 가능하며 비교 가능한 벤치마크의 부족을 해결하기 위해.
arXiv 메타데이터, 전체 텍스트, 인용 네트워크를 다운로드하고 정규화하며 구조화하는 통합된 오픈소스 파이프라인을 제공하기 위해.
차세대 그래프 신경망 및 다중모달 모델을 위한 기준 데이터셋으로 arXiv를 확립하기 위해.
텍스트와 관계 구조를 통합한 기준 분류 작업을 통해 arXiv 데이터셋의 유용성을 입증하기 위해.
풍부하고 표준화된 데이터셋을 통해 향후 연구자들이 링크 예측, 주제 모델링, 텍스트 분할, 자동 요약 등에 활용할 수 있도록 하기 위해.

제안 방법

저자들은 Open Archives Initiative (OAI)를 통해 arXiv 메타데이터를 수확하고 arXiv의 공개 API를 통해 대량의 PDF 파일을 다운로드하는 오픈소스 파이프라인을 개발했다.
원본 PDF 파일은 텍스트로 변환되었고, 내부 arXiv ID가 추출되어 전체 텍스트 문서 내의 참조를 식별함으로써 공인용 네트워크를 구축했다.
저자 이름은 전용 스크립트를 사용해 정규화되고 구조화된 목록으로 분할되어 데이터 일관성을 향상시켰다.
최종 데이터셋은 150만 개의 논문, 670만 개의 인용 간선, 그리고 풍부한 메타데이터와 관계 구조를 포함한 110억 단어의 전체 텍스트 코퍼스를 포함한다.
기준 분류 작업은 유니버설 문장 인코더에서 유도된 임베딩을 사용한 로지스틱 회귀를 통해 수행되었으며, 제목, 초록, 전체 텍스트, 공인용 그래프의 특징을 통합했다.
파워 법칙 지수와 네트워크 통계는 'networkx'와 'powerlaw' 파이썬 패키지를 사용해 인용 그래프의 스케일프리 성질을 특성화했다.

실험 결과

연구 질문

RQ1arXiv는 체계적으로 표준화되고 구조화되어 대규모 다중모달 및 관계형 과학적 모델링을 위한 기준 데이터셋으로 활용될 수 있는가?
RQ2다른 텍스트 모달리티(제목, 초록, 전체 텍스트)와 관계 특징(공인용)은 논문 카테고리 분류 성능에 어떻게 기여하는가?
RQ3arXiv 인용 그래프의 구조적 성질은 무엇이며, 다른 잘 알려진 인용 네트워크와 비교해보면 어떠한가?
RQ4텍스트 기반 모델에 그래프 구조를 통합할 경우 과학 문헌 분류 정확도가 얼마나 향상되는가?
RQ5arXiv 데이터셋은 표준화되고 재현 가능한 방식으로 링크 예측, 주제 모델링, 텍스트 생성 등의 고급 작업을 지원할 수 있는가?

주요 결과

arXiv 인용 그래프는 135만 개의 노드와 672만 개의 유도 간선을 포함하며, 평균 차수는 9.933이고, 내차수의 파워 법칙 지수는 2.93, 외차수는 3.93이다.
가장 큰 약한 연결 성분(WCC)은 그래프의 62%를 차지하여 다소 연결되어 있지만 분할된 구조임을 시사한다.
전체 텍스트 특징만으로도 카테고리 분류의 상위 1위 정확도가 64.2%에 도달했으며, 제목(36.6%)과 초록(46.0%)만 사용했을 때보다 유의미하게 높았다.
공인용 특징을 통합함으로써 전체 텍스트만 사용했을 때의 상위 1위 정확도 64.2%에서 제목, 초록, 전체 텍스트, 공인용을 모두 조합한 경우 78.4%로 향상되었다.
제거 실험 결과, 전체 텍스트 특징을 제거했을 때 성능이 가장 크게 하락(상위 1위 정확도 59.0%로)하여 전체 텍스트 특징이 분류에 가장 큰 기여를 했다는 것을 시사한다.
전체 특징 세트의 퍼플렉서티는 2.3으로 떨어졌으며, 이는 매우 확신 있는 정확한 예측을 의미한다. 반면 제목만 사용했을 경우 퍼플렉서티는 12.7이었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.