Skip to main content
QUICK REVIEW

[論文レビュー] Joint Extraction of Entities and Relations Based on a Novel Decomposition Strategy

Bowen Yu, Zhenyu Zhang|arXiv (Cornell University)|Sep 10, 2019
Topic Modeling参考文献 33被引用数 55
ひとこと要約

本論文は、ジョイントなエンティティ-関係抽出を、Head-Entity (HE) および Tail-Entity and Relation (TER) のサブタスクに分解する2段階の抽出-ラベル付け(extract-then-label, ETL)フレームワークを導入し、スパンベースのタグ付けスキームと階層的境界タグ付け器を用いて、重複する関係を共同かつ効率的に抽出する。

ABSTRACT

Joint extraction of entities and relations aims to detect entity pairs along with their relations using a single model. Prior work typically solves this task in the extract-then-classify or unified labeling manner. However, these methods either suffer from the redundant entity pairs, or ignore the important inner structure in the process of extracting entities and relations. To address these limitations, in this paper, we first decompose the joint extraction task into two interrelated subtasks, namely HE extraction and TER extraction. The former subtask is to distinguish all head-entities that may be involved with target relations, and the latter is to identify corresponding tail-entities and relations for each extracted head-entity. Next, these two subtasks are further deconstructed into several sequence labeling problems based on our proposed span-based tagging scheme, which are conveniently solved by a hierarchical boundary tagger and a multi-span decoding algorithm. Owing to the reasonable decomposition strategy, our model can fully capture the semantic interdependency between different steps, as well as reduce noise from irrelevant entity pairs. Experimental results show that our method outperforms previous work by 5.2%, 5.9% and 21.5% (F1 score), achieving a new state-of-the-art on three public datasets

研究の動機と目的

  • 多数のノイズの多いエンティティ対を生成することなく、エンティティと関係の効率的なジョイント抽出を動機づける。
  • Head-Entity (HE) 抽出とTER 抽出にタスクを分解して、ヘッドエンティティの意味論的および位置的特徴を活用する。
  • エンドツーエンドの抽出のため、スパンベースのタグ付けスキームと階層的境界タグ付け器を提案する。
  • HEとTERのステップ間の相互作用をモデル化することで、重複する関係を捕捉可能にする。

提案手法

  • ETL(extract-then-label)フレームワークとして、HE抽出を先行させ、次にTER抽出を行うことを提案する。
  • HEは開始位置/終了位置ラベルを用い、TERは関係タグ付きの尾部エンティティに対して開始位置/終了位置ラベルを用いる、スパンベースのタグ付けスキームを導入する。
  • 階層的境界タグ付け器(HBT)を開発し、開始位置ラベリングと終了位置ラベリングを逐次的に連携させ、BiLSTMエンコーダを介して表現を共有する。
  • 特定のヘッドエンティティに対して、複数の尾部エンティティと関係を共同でデコードするマルチスパンデコーディングアルゴリズムを用いる。
  • 共有表現を用いたHEとTER損失のジョイント最適化として学習を定式化する(L = L_HE + L_TER)。

実験結果

リサーチクエスチョン

  • RQ1JOINT抽出をHEとTERのサブタスクに分解することで、統一ラベリングやextract-then-classify法より精度を向上させることができるか?
  • RQ2スパンベースのラベリングと階層的デコーディングは、重複する関係をより適切に扱い、関係を持たないエンティティ対からのノイズを低減できるか?
  • RQ3共有エンコーダとヘッドエンティティ特有の条件付けを用いたHEとTERの共同訓練からどのような性能向上が得られるか?
  • RQ4提案手法 ETL-Span は、標準データセットにおける normal、SEO、EPO 文カテゴリでの最先端手法とどのように比較されるか?

主な発見

  • ETL-Span は NYT-single、NYT-multi、WebNLG で従来手法を上回り、最先端のF1スコアを達成: NYT-single 59.0%、 NYT-multi 78.0%、 WebNLG 83.1%。
  • ETL-Span は extract-then-classify のベースライン(例: GraphRel)を大幅に上回り、F1で NYT-multiで16.1%、WebNLGで40.2% の改善を示す。
  • アブレーション分析は、位置情報を意識したTER信号、階層的タグ付け、HE-TERの共同訓練が全体の性能に重要であることを示している。
  • スパンベースのデコード(ETL-Span)は、CRFベースの代替手法(ETL-BIES)より高速で、GPUメモリ使用量も少なく、高い精度を維持する。
  • 分解戦略によるHEとTERの共同訓練は学習を制約し、NYT-singleで別々の訓練と比較してF1を約5.3%向上させる。
  • 本手法は normal、SEO、EPO のカテゴリ全般で有効だが、EPO は依然として難しい。NYT-multi では重複カテゴリ間でも高い性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。