Skip to main content
QUICK REVIEW

[論文レビュー] Construction of the Literature Graph in Semantic Scholar

Waleed Ammar, Dirk Groeneveld|arXiv (Cornell University)|May 6, 2018
Topic Modeling参考文献 21被引用数 48
ひとこと要約

論文は、自然言語処理(NLP)手法を用いて科学論文からメタデータ、実体、言及を抽出・リンクさせ、異種文献グラフ(280M以上のノード)を構築する、拡張性のあるデプロイ済みシステムを説明します。高度なクエリと発見を可能にします。グラフ構造、メタデータ抽出(ScienceParse)、実体抽出/リンク、KB grounding、 disambiguationとカバレッジの課題を扱います。

ABSTRACT

We describe a deployed scalable system for organizing published scientific literature into a heterogeneous graph to facilitate algorithmic manipulation and discovery. The resulting literature graph consists of more than 280M nodes, representing papers, authors, entities and various interactions between them (e.g., authorships, citations, entity mentions). We reduce literature graph construction into familiar NLP tasks (e.g., entity extraction and linking), point out research challenges due to differences from standard formulations of these tasks, and report empirical results for each task. The methods described in this paper are used to enable semantic features in www.semanticscholar.org

研究の動機と目的

  • 論文・著者・実体・関係を統一グラフに整理して、科学文献におけるアルゴリズム的発見を動機づける。
  • 出版社やプレプリントなど多様なソースから文献グラフを構築するスケーラブルな製品システムを提示する。
  • 学術ドメインに適したメタデータ抽出、実体抽出/リンクといった NLP タスクを説明し、経験的結果を報告する。
  • 著者の disambiguation、KB カバレッジの制限、図表抽出などの課題を特定し、今後の展望を概説する。

提案手法

  • 文献をノード(論文、著者、実体、言及)とエッジ(引用、著者関係、実体リンク、言及関連)を持つ directed property graph として表現する。
  • PDF やメタデータからグラフを構築するために、シーケンスラベリング、実体リンク、関係抽出といった NLP タスクを用いる。
  • PDF から論文タイトル、著者、参考文献を予測する multi-stage の feature-rich RNN/LSTM パイプラインを用いて ScienceParse システムを開発する。
  • 実体言及を知識ベース(UMLS、DBpedia)に grounding し、候補実体上でニューラルスコアリングモデルを用いた実体リンクを実行し、トークンレベルおよび文脈特徴を活用する。
  • 複数の実体抽出モデル(統計的、ハイブリッド、オフ・ザ・シェルフ)からの出力をプールして、デプロイ時の精度とリコーリョンを改善する。
  • 長尾の課題(著者の disambiguation、オントロジーの整合、図表抽出、限定KBカバレッジ)に対処し、カバレッジ拡張のための遠隔監督を提案する。

実験結果

リサーチクエスチョン

  • RQ1異種ソースから拡張性のある文献グラフを構築し、先進的な学術クエリをサポートする方法は?
  • RQ2科学論文のメタデータ、実体、関係を抽出するための有効な NLP 手法は?
  • RQ3科学ドメインにおける実体リンクを実現するにはどうするべきか、ドメイン特有のカバレッジ不足をどう対処するべきか?
  • RQ4大規模な文献グラフを構築・維持する際の主な課題は何で、どのように緩和できるのか?
  • RQ5複数の抽出アプローチを組み合わせることが、実務上の精度とカバレッジにどのような影響を与えるか?

主な発見

アプローチCS 精度CS 産出Bio 精度Bio 産出
統計的98.471294.4928
ハイブリッド91.5199092.13126
市販の97.487377.51206
  • 文献グラフは論文、著者、実体を含む2億8000万ノード超と、引用や著者関係などのさまざまな相互作用エッジで構成されている。
  • ScienceParse は PDFs からタイトル、著者、参考文献を、高精度で抽出する(分野とターゲットに応じて約 85–98% の精度、タイトル・著者・ bibliography 領域)。
  • 3つの実体抽出/リンクアプローチ(統計的、ハイブリッド、オフ・ザ・シェルフ)は異なるトレードオフを示す。統計的方法が最も高い精度を与え、ハイブリッドが最も高いカバレッジ(産出)を提供し、オフ・ザ・シェルフは CS で競争力のある精度を示す一方、生物分野では精度が低い。
  • CS および生物医薬分野の評価では、ハイブリッド法が最高の産出を達成(例:CS 1990、Bio 3126)、統計的方法は高精度を達成(例:CS 98.4、Bio 94.4)という文書レベルの評価が得られる。
  • 実体リンクモデルは KB grounding(UMLS、DBpedia)を用い、候補実体上でニューラルスコアリングを行い、カスタマイズ済みデータセット上で Bag of Concepts F1 が CS 84.6、Bio 85.8 を達成している。
  • システムは複数の抽出出力をプールして、デプロイ時の全体的なカバレッジと品質を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。