Skip to main content
QUICK REVIEW

[論文レビュー] A General Framework for Information Extraction using Dynamic Span Graphs

Yi Luan, Dave Wadden|arXiv (Cornell University)|Apr 5, 2019
Topic Modeling参考文献 35被引用数 37
ひとこと要約

DyGIEは、エンティティ、関係、コアリファレンスを同時に抽出する動的スパングラフを導入し、複数のドメインで最先端の結果を達成し、重複するスパンにも適切に対応します。

ABSTRACT

We introduce a general framework for several information extraction tasks that share span representations using dynamically constructed span graphs. The graphs are constructed by selecting the most confident entity spans and linking these nodes with confidence-weighted relation types and coreferences. The dynamic span graph allows coreference and relation type confidences to propagate through the graph to iteratively refine the span representations. This is unlike previous multi-task frameworks for information extraction in which the only interaction between tasks is in the shared first-layer LSTM. Our framework significantly outperforms the state-of-the-art on multiple information extraction tasks across multiple datasets reflecting different domains. We further observe that the span enumeration approach is good at detecting nested span entities, with significant F1 score improvement on the ACE dataset.

研究の動機と目的

  • スパン表現を共有するタスク間でのジョイント情報抽出を動機づける。
  • 動的グラフを介してスパン表現を洗練させる汎用・ドメイン非依存フレームワークを提案する。
  • コアリファレンスと関係リンクを通じた文脈伝搬を有効にして予測を改善する。
  • 複数のデータセットとドメインにおいて強力な実証的性能を示す。

提案手法

  • 最大長までのすべての候補スパンを列挙し、初期のスパン表現を計算する。
  • 高信頼度のスパンをノードとして選択し、信頼度で重みづけられたコアリファレンスおよび関係のエッジで結ぶ動的スパングラフを構築する。
  • コアリファレンスとリレーション層を介して文脈を伝搬させ、反復的な更新を通じてスパン表現を洗練する。
  • 伝搬ステップごとにゲート付き更新を用いて古い情報と新しい情報を結合する。
  • 洗練されたスパン表現からエンティティタイプとリレーションタイプを予測し、コアリファレンスの監督と共同で学習する。
  • エンティティ、関係、コアリファレンスの対数尤度損失の加重和で訓練する。

実験結果

リサーチクエスチョン

  • RQ1従来の共有エンコーダー型マルチタスクモデルと比べて、動的スパングラフアプローチはエンティティ・関係・コアリファレンスの横断タスク情報抽出を改善できるだろうか?
  • RQ2コアリファレンスとリレーションリンクを介した文脈伝搬は、スパン表現と下流予測を多様なドメインで強化するか?
  • RQ3外部構文ツールがないドメインや重複するスパンの検出にもフレームワークは有効か?
  • RQ4コアリファレンス伝搬とリレーション伝搬のエンティティおよびリレーション抽出への影響は何か?

主な発見

DatasetSystemEntity F1Relation F1
ACE04Bekoulis et al. (2018)81.647.5
ACE04Miwa and Bansal (2016)81.848.4
ACE04DyGIE87.459.7
ACE05Miwa and Bansal (2016)83.455.6
ACE05Zhang et al. (2017)83.657.5
ACE05Sanh et al. (2019)87.562.7
ACE05DyGIE88.463.2
SciERCLuan et al. (2018a)64.239.3
SciERCDyGIE65.241.6
WLPCKulkarni et al. (2018)78.054.9
WLPCDyGIE79.564.1
  • ACE04、ACE05、SciERC、および Wet Lab Protocol Corpus におけるエンティティとリレーションの結合抽出で最先端の性能を達成。
  • ACE04-O、ACE05-O、GENIA における重複エンティティ抽出で従来手法と比べて顕著な改善を示す。
  • ACE04とACE05では、NERで相対的に7.1%および7.0%、REで相対的に25.8%および13.7%の改善を達成。
  • SciERCで、従来モデルに対してリレーション抽出で5.9%、NERで1.9%の改善。
  • WLPCで、金標エンティティ境界なしでリレーション抽出を16.8%、NERを2.2%改善。
  • コアリファレンス伝搬は代名詞の曖昧性解消と文を跨ぐ文脈においてエンティティ型付けを顕著に助け、リレーション伝搬は特に多くのエンティティを含む文でリレーション抽出を堅牢に向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。