Skip to main content
QUICK REVIEW

[論文レビュー] An Improved Baseline for Sentence-level Relation Extraction

Wenxuan Zhou, Muhao Chen|arXiv (Cornell University)|Feb 2, 2021
Topic Modeling参考文献 23被引用数 49
ひとこと要約

本論文は、文レベルの関係抽出を改善するために型付きエンティティマーカーを提案し、TACRED、TACREV、Re-TACREDで最先端のF1スコアを達成し、特に RoBERTa-LARGE を用いた punct-based typed markers で Re-TACRED が91.1%を達成した。

ABSTRACT

Sentence-level relation extraction (RE) aims at identifying the relationship between two entities in a sentence. Many efforts have been devoted to this problem, while the best performing methods are still far from perfect. In this paper, we revisit two problems that affect the performance of existing RE models, namely entity representation and noisy or ill-defined labels. Our improved RE baseline, incorporated with entity representations with typed markers, achieves an F1 of 74.6% on TACRED, significantly outperforms previous SOTA methods. Furthermore, the presented new baseline achieves an F1 of 91.1% on the refined Re-TACRED dataset, demonstrating that the pretrained language models (PLMs) achieve high performance on this task. We release our code to the community for future research.

研究の動機と目的

  • エンティティ表現が文レベルのRE性能に与える影響を強調する。
  • 型付きエンティティマーカーが他のエンティティ表現技術と比較してどうなるかを調査する。
  • 改良されたベースラインをTACRED、TACREV、Re-TACREDデータセットで評価する。
  • ノイズの多いラベルや未知エンティティに対する頑健性を評価する。

提案手法

  • PLM からの主語・目的エンティティの埋め込みを使用する分類器を用いて、文レベルのREを定式化する。
  • 入力にNERタイプを含む型付きエンティティマーカーを含む、さまざまな手法でエンティティを表現する。
  • 最良のエンティティ表現をRoBERTa-LARGEバックボーンに組み込み、エンドツーエンドでファインチューニングする。
  • TACRED、TACREV、Re-TACREDデータセット間で性能を比較する。

実験結果

リサーチクエスチョン

  • RQ1異なるエンティティ表現技術が文レベルのRE性能に与える影響は何か?
  • RQ2型付きエンティティマーカーは未型付きマーカーやマスクよりREの精度を改善できるか?
  • RQ3従来のSOTA手法と比較して、改良されたベースラインはTACRED、TACREV、Re-TACREDでどの程度の性能を示すか?
  • RQ4ラベルがノイズを含む場合や未知のエンティティが出現した場合でも、アプローチは頑健性を保つか?

主な発見

モデルTACRED (F1)TACREV (F1)Re-TACRED (F1)
RoBERTa-LARGE + typed entity marker (punct)74.683.291.1
BERT-BASE + typed entity marker71.579.387.9
BERT-LARGE + typed entity marker72.981.389.7
  • 型付きエンティティマーカー(punct)と RoBERTa-LARGE は TACRED で 74.6% F1、TACREV で 83.2%、Re-TACRED で 91.1%を達成。
  • 型付きエンティティマーカーは、エンティティマスクや非型付きマーカーをエンコーダ全体で一貫して上回る。
  • 型付きエンティティマーカーを用いた改良ベースラインは、TACRED、TACREV、Re-TACREDで新しいSOTAを設定する(RoBERTa-LARGE + typed marker (punct))。
  • クリーンな_TACRED_テストセットでは、型付きマーカーの利得はTACRED/TACREVより小さく、TACRED由来データセットのラベルノイズ効果を示唆している。
  • この研究は、エンティティ型情報が入力表現に効果的に組み込まれると、PLMが高いRE性能を達成できることを示している。
  • 著者らは、型付きマーカーを用いると、未知のエンティティへの一般化をエンティティ名が支援できることを示す証拠を提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。