Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Task Identification of Entities, Relations, and Coreference for Scientific Knowledge Graph Construction

Yi Luan, Luheng He|arXiv (Cornell University)|Aug 29, 2018
Topic Modeling参考文献 36被引用数 44
ひとこと要約

本論文は、科学的実体・関係・コアリファレンスを識別する統一的なマルチタスクモデル(SciIE)と SciERC データセットを紹介し、手作業の特徴量を用いずに情報抽出と知識グラフ構築の改善を示す。

ABSTRACT

We introduce a multi-task setup of identifying and classifying entities, relations, and coreference clusters in scientific articles. We create SciERC, a dataset that includes annotations for all three tasks and develop a unified framework called Scientific Information Extractor (SciIE) for with shared span representations. The multi-task setup reduces cascading errors between tasks and leverages cross-sentence relations through coreference links. Experiments show that our multi-task model outperforms previous models in scientific information extraction without using any domain-specific features. We further show that the framework supports construction of a scientific knowledge graph, which we use to analyze information in scientific literature.

研究の動機と目的

  • エンティティ、関係、コアリファレンスを共同モデリングすることで、跨文情報を処理し、連鎖的エラーを低減させることを目的として、科学情報抽出を進化させる。
  • SciERC、科学抽象におけるエンティティ・関係・コアリファレンスの注釈データセットを作成。
  • スパン表現をタスク間で共有することでスパン境界検出と関係カバーを改善する、統一的なエンドツーエンドのフレームワークを開発。
  • SciERC および SemEval データセットにおいて、マルチタスクモデルが最先端のベースラインを上回ることを示す。
  • 抽出された用語と関係を大規模な科学知識グラフに統合する方法を示す。

提案手法

  • 三つのタスクを共有スパン表現上の多項分類として扱う。
  • 最大幅までの候補スパンを列挙・スコア付けし、重複と跨文の関係を許す。
  • Phi_E, Phi_R, Phi_C を、共有スパン表現 g_i からフィードフォワードネットワークで計算する統一スコアリング構造を使用;関係とコアファレンスは g_i, g_j, および g_i ∘ g_j を含む対スパン特徴を用いる。
  • E, R, C の負の対数尤度の加重和で訓練し、lambda_E, lambda_R, lambda_C でタスクのバランスを取る。
  • ビームプルーニングを組み込み、候補スパンとペアワイズ計算を削減し、推論を効率化する;跨文情報をコアファレンスを介して伝播させるためにスパン表現をタスク間で共有。

実験結果

リサーチクエスチョン

  • RQ1単一のマルチタスクモデルは、科学文におけるエンティティ・関係・コアリファレンスを共同で特定し、タスク固有のベースラインを上回ることができるか?
  • RQ2コアリファレンスによる跨文情報は、科学論文における関係の網羅性とエンティティ境界検出を改善するか?
  • RQ3ハンドエンジニアリング特徴を用いない span ベースのエンドツーエンド手法は、科学情報抽出における重複スパンや跨文関係を効果的に処理できるか?
  • RQ4結合学習は下流の科学知識グラフの構築と品質にどのような影響を与えるか?
  • RQ5知識グラフの密度と曖昧さ解消を改善するコアリファレンス伝播からどのような洞察が得られるか?

主な発見

  • SciIE は SciERC におけるエンティティ認識、関係抽出、コアファレンス解決でベースラインを上回る。
  • エンティティ認識:SciIEの開発データで68.1 F1、テストデータで64.2 F1、LSTM+CRFおよびE2E Relのベースラインに比して顕著な改善。
  • 関係抽出:開発で58.0 F1、テストで48.2 F1、E2E Relベースラインを大幅に上回る。
  • コアリファレンス解決:開発で58.0 F1、テストで48.2 F1、E2E Corefを上回る。
  • アブレーションにより、マルチタスク学習がタスク間で性能を向上させることが示される;結合訓練は、開発データでのエンティティ65.7対68.1、関係37.9対39.5、コアリファレンス55.3対58.0のような利得を生む。
  • SemEval 2017 では、SciIE は従来の特徴量ベース手法を上回る(スパン識別 F1 58.6、キーフレーズ抽出 F1 46.0、関係抽出 F1 27.8、総合 F1 44.7)。
  • 11万件の要約からの知識グラフ構築は、コアリファレンス伝播が評価対象の人間注釈済み三つ組のグラフ品質とリコールを高めることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。