QUICK REVIEW

[논문 리뷰] Construction of the Literature Graph in Semantic Scholar

Waleed Ammar, Dirk Groeneveld|arXiv (Cornell University)|2018. 05. 06.

Topic Modeling참고 문헌 21인용 수 48

한 줄 요약

이 논문은 NLP 방법을 사용하여 과학 논문에서 메타데이터, 엔티티, 언급을 추출하고 연결하여 이질적인 문헌 그래프(2.8억 개 이상의 노드)를 구축하는 배포 가능하고 확장 가능한 시스템을 설명하며, 고급 쿼리 및 발견을 가능하게 한다. 그래프 구조, 메타데이터 추출(ScienceParse), 엔티티 추출/연결, KB 접지, 그리고 식별 불명확성(disambiguation) 및 커버리지의 도전과제를 다룬다.

ABSTRACT

We describe a deployed scalable system for organizing published scientific literature into a heterogeneous graph to facilitate algorithmic manipulation and discovery. The resulting literature graph consists of more than 280M nodes, representing papers, authors, entities and various interactions between them (e.g., authorships, citations, entity mentions). We reduce literature graph construction into familiar NLP tasks (e.g., entity extraction and linking), point out research challenges due to differences from standard formulations of these tasks, and report empirical results for each task. The methods described in this paper are used to enable semantic features in www.semanticscholar.org

연구 동기 및 목표

논문, 저자, 엔티티 및 관계를 하나의 통합 그래프로 구성함으로써 과학 문헌에서 알고리즘적 발견을 촉진한다.
다양한 출처로부터 문헌 그래프를 구축하기 위한 확장 가능한 생산 시스템을 제시한다.
학술 도메인에 맞춘 NLP 작업(메타데이터 추출, 엔티티 추출/연결)을 설명하고 실증 결과를 보고한다.
저자 식별의 모호성, 제한된 KB 커버리지, 도해 추출과 같은 도전 과제를 식별하고 향후 연구 방향을 제시한다.

제안 방법

문헌을 방향성 속성 그래프로 표현하되 노드(논문, 저자, 엔티티, 언급)와 간선(인용, 저자 관계, 엔티티 연결, 언급 관계)으로 구성한다.
PDF 및 메타데이터로부터 그래프를 구축하기 위해 시퀀스 라벨링, 엔티티 연결, 관계 추출과 같은 NLP 작업을 사용한다.
다단계 특징 풍부한 RNN/LSTM 파이프라인을 사용하여 PDF로부터 논문 제목, 저자 및 참고문헌을 예측하기 위해 ScienceParse 시스템을 개발한다.
엔티티 언급을 지식 기반(UMLS, DBpedia)에 접지하고 후보 엔티티에 대한 신경 스코어링 모델로 엔티티 연결을 수행하며 토큰 수준 및 맥락 특징을 사용한다.
배포 시 정밀도(precision)와 커버리지(yield)를 향상시키기 위해 다수의 엔티티 추출 모델(통계적, 하이브리드, 상용)을 결합한 출력을 모은다.
장기 꼬리 문제(저자 중의성 해결, 온톨로지 매칭, 도해 추출, 제한된 KB 커버리지)를 다루고 커버리지 확장을 위한 원격 감독(distant supervision)을 제안한다.

실험 결과

연구 질문

RQ1다양한 이질적 소스로부터 고급 학술 질의를 지원하기 위해 어떻게 확장 가능한 문헌 그래프를 구축할 수 있는가?
RQ2과학 텍스트에서 논문 메타데이터, 엔티티 및 관계를 추출하는 데 어떤 NLP 접근법이 효과적인가?
RQ3과학 분야에서 지식 기반으로의 엔티티 연결은 어떻게 구현할 수 있으며 도메인 특화 커버리지 격차를 어떻게 처리할 수 있는가?
RQ4이처럼 대규모 문헌 그래프를 구축하고 유지하는 데 어떤 주요 도전과제가 있으며 이를 어떻게 완화할 수 있는가?
RQ5다중 추출 접근법을 결합하는 것이 실제로 정밀도와 커버리지에 어떤 영향을 미치는가?

주요 결과

Approach	CS Prec.	CS Yield	Bio Prec.	Bio Yield
Statistical	98.4	712	94.4	928
Hybrid	91.5	1990	92.1	3126
Off-the-shelf	97.4	873	77.5	1206

문헌 그래프는 논문, 저자, 엔티티를 포함하여 over 280 million 노드로 구성되며 인용 및 저자 관계와 같은 다양한 상호 작용 간선을 가진다.
ScienceParse가 PDFs에서 제목, 저자, 참고문헌을 분야 및 대상으로 따라 약 85–98%의 정확도로 추출한다(제목, 저자, 참고문헌 필드).
세 가지 엔티티 추출/연결 접근법(통계적, 하이브리드, 상용)은 서로 다른 트레이드를 보이며; 통계적 방법이 가장 높은 정밀도를 주고, 하이브드가 가장 높은 커버리지(yield)를 주며, 상용은 CS에서 경쟁력 있는 정밀도를 보이지만 Bio에서는 낮다.
CS 및 Biomedical 도메인에 대한 평가에서 하이브리드 방식이 가장 높은 수율(예: CS 1990, Bio 3126)을 달성하는 반면, 통계적 접근은 문서 단위 테스트에서 높은 정밀도(CS 98.4, Bio 94.4)를 달성한다.
엔티티 연결 모델은 후보 엔티티에 대한 신경 스코어링으로 KB 접지(UMLS, DBpedia)를 사용하며, curated 데이터셋에서 Bag of Concepts F1이 CS 84.6, Bio 85.8에 도달한다.
시스템은 배포에서 전체 커버리지와 품질을 향상시키기 위해 다중 추출 출력들을 풀링한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.