[論文レビュー] Entity-centered Cross-document Relation Extraction
本論文は ECRIM を提案する。エンティティベースの文書コンテキストフィルタとクロスパスのエンティティ関係注意モデルを用いたクロスドキュメント関係抽出で、CodRED に対して最先端の結果を達成した(テストセットでの F1 62.48、AUC 60.67)。
Relation Extraction (RE) is a fundamental task of information extraction, which has attracted a large amount of research attention. Previous studies focus on extracting the relations within a sentence or document, while currently researchers begin to explore cross-document RE. However, current cross-document RE methods directly utilize text snippets surrounding target entities in multiple given documents, which brings considerable noisy and non-relevant sentences. Moreover, they utilize all the text paths in a document bag in a coarse-grained way, without considering the connections between these text paths.In this paper, we aim to address both of these shortages and push the state-of-the-art for cross-document RE. First, we focus on input construction for our RE model and propose an entity-based document-context filter to retain useful information in the given documents by using the bridge entities in the text paths. Second, we propose a cross-document RE model based on cross-path entity relation attention, which allow the entity relations across text paths to interact with each other. We compare our cross-document RE method with the state-of-the-art methods in the dataset CodRED. Our method outperforms them by at least 10% in F1, thus demonstrating its effectiveness.
研究の動機と目的
- 既存手法におけるノイズとパス接続の問題に対処して、クロスドキュメント関係抽出を改善する動機づけ。
- 入力構成法を提案してブリッジエンティティを強調し、有用な文脈を保持する。
- テキストパス間の相互依存性を捉えるクロスパス注意機構を開発し、推論を改善する。
提案手法
- ブリッジエンティティスコアと意味的文順序付けステップを用いて、 salient sentences を選択するエンティティベースの文書コンテキストフィルター。
- トークン表現とエンティティ表現を得るBERTベースのエンコーダ。
- 袋レベルの関係マトリクスとTransformer を用いて、テキストパス間の関係の相互依存性をモデル化するクロスパスエンティティ関係アテンション。
- 分類器がパスレベル表現を統合して袋レベルの関係予測を出力する。
- 複数の有効な関係を持つ袋を扱うためのマルチラベルグローバル閾値損失。
実験結果
リサーチクエスチョン
- RQ1ブリッジエンティティをどのように活用してクロ-document 入力をフィルタリング・順序付けして RE を行うか?
- RQ2テキストパス間の関係の相互依存性をモデル化することで、クロスドキュメントREの性能は向上するか?
- RQ3入力構成とクロスパス注意が CodRED の性能にどのような影響を与えるか?
- RQ4マルチラベル CodRE のための袋レベル閾値ベースの訓練目的はどれほど有効か?
主な発見
| F1 | AUC | P@500 | P@1000 | |
|---|---|---|---|---|
| Pipeline (Yao et al. 2021) | 30.54 | 17.45 | 30.60 | 26.70 |
| End-to-end (Yao et al. 2021) | 61.12 | 60.91 | 78.89 | 60.17 |
| ECRIM (ours) | 61.12 | 60.91 | 78.89 | 60.17 |
- ECRIM は CodRED の開発セットとテストセットの両方でベースラインより優れている(F1 は約 61.12–62.48、AUC は約 60.91–60.67)。
- 入力構成モジュールを介してブリッジエンティティを組み込むと、ベースラインの入力戦略よりも性能が大幅に向上。
- クロスパスエンティティ関係アテンションにより、異なるテキストパス間の関係同士の相互作用を可能にし、顕著なゲインを得る。
- アブレーション研究では、入力構成、ブリッジエンティティ、クロスパス注意、閾値損失のいずれかを除去すると性能が低下。
- ブリッジ情報とパス数の適度なレベルで最良の性能を示し、ブリッジエンティティとパス数の数に対してロバスト性を保つ。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。