Skip to main content
QUICK REVIEW

[論文レビュー] A Frustratingly Easy Approach for Entity and Relation Extraction

Zexuan Zhong, Danqi Chen|arXiv (Cornell University)|Oct 24, 2020
Topic Modeling参考文献 37被引用数 35
ひとこと要約

PUREはエンドツーエンドのエンティティおよびリレーション抽出のための型付きマーカーを用いた単純なパイプライン式の二エンコーダアプローチを提示し、ACE04、ACE05、SciERCで新しい最先端の成果を達成するとともに、効率的な推論近似を実現します。

ABSTRACT

End-to-end relation extraction aims to identify named entities and extract relations between them. Most recent work models these two subtasks jointly, either by casting them in one structured prediction framework, or performing multi-task learning through shared representations. In this work, we present a simple pipelined approach for entity and relation extraction, and establish the new state-of-the-art on standard benchmarks (ACE04, ACE05 and SciERC), obtaining a 1.7%-2.8% absolute improvement in relation F1 over previous joint models with the same pre-trained encoders. Our approach essentially builds on two independent encoders and merely uses the entity model to construct the input for the relation model. Through a series of careful examinations, we validate the importance of learning distinct contextual representations for entities and relations, fusing entity information early in the relation model, and incorporating global context. Finally, we also present an efficient approximation to our approach which requires only one pass of both entity and relation encoders at inference time, achieving an 8-16$ imes$ speedup with a slight reduction in accuracy.

研究の動機と目的

  • パイプライン設計が分離エンコーダでエンドツーエンドのリレーション抽出を従来の結合モデルより上回るかを再評価する。
  • エンティティとリレーションに対する異なる文脈表現が有益であることを示す。
  • エンティティ情報の早期フュージョンと型付きマーカーがリレーション理解を改善することを示す。
  • 推論時間を大幅に短縮しつつ大きな精度損失を避ける効率的な推論近似を提案する。

提案手法

  • エンティティモデル(スパンレベルのエンティティ予測)とリレーションモデル(ペアワイズスパン関係予測)の二つの独立したエンコーダに分割する。
  • リレーションモデルでは主体スパンと客体スパンの周囲に型付きマーカーを挿入し、ペア固有の文脈表現を生み出す入力を作成する。
  • リレーションモデルの入力層でエンティティ情報(境界と型)を統合し、関係の識別を向上させる。
  • 任意で固定ウィンドウ内のクロス文脈を追加してより広い文脈を利用する。
  • 両タスクとも標準のクロスエントロピーロスで訓練する。推論時には金標エンティティをリレーションモデルの訓練に使用し、予測エンティティを推論時に使用する。
  • テキストトークンの計算を再利用するためにマーカー位置をスパンの開始/終了に結びつけ、アテンションを制約することにより、推論時に複数スパン対入力をバッチ処理できる効率的なバッチ近似を提供する。

実験結果

リサーチクエスチョン

  • RQ1標準ベンチマークでエンドツーエンドのリレーション抽出において、二エンコーダのパイプライン設計は結合モデルを上回るか。
  • RQ2エンティティとリレーションの異なる文脈表現とエンティティ情報の早期フュージョンは、共有表現より性能向上をもたらすか。
  • RQ3大幅な精度低下を伴わずにエンドツーエンドのリレーション抽出を大幅に高速化できる効率的な推論近似は機能するか。
  • RQ4このフレームワークにおけるクロス文脈の影響はエンティティ認識とリレーション抽出の両方にどのように現れるか。

主な発見

  • 提案されたPUREパイプラインは、同じ事前訓練済みエンコーダを使用した場合、ACE04、ACE05、SciERCにおけるリレーションF1で従来の結合モデルを上回る。
  • エンティティとリレーションに対して異なる文脈表現を学ぶことは、表現を共有するより有利である。
  • リレーションモデル入力におけるエンティティ境界情報と型情報の早期フュージョンは、リレーション理解を大幅に改善する。
  • クロス文脈はエンティティ予測とリレーション予測の両方に追加の利得をもたらす。
  • バッチ推論の近似は、複数スパン対入力を処理することで8〜16倍の速度向上を達成し、リレーションF1はわずかな低下(例:ACE05で約1%)にとどまる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。