[論文レビュー] Downstream Model Design of Pre-trained Language Model for Relation Extraction Task
この論文はPLMベースの下流モデルを関係抽出に設計し、別々のヘッド/テール埋め込み、非対称カーネル内積を用いて関係傾向を計算し、重複/複数関係を扱うためのSigmoidベースのマルチラベル損失を採用する。
Supervised relation extraction methods based on deep neural network play an important role in the recent information extraction field. However, at present, their performance still fails to reach a good level due to the existence of complicated relations. On the other hand, recently proposed pre-trained language models (PLMs) have achieved great success in multiple tasks of natural language processing through fine-tuning when combined with the model of downstream tasks. However, original standard tasks of PLM do not include the relation extraction task yet. We believe that PLMs can also be used to solve the relation extraction problem, but it is necessary to establish a specially designed downstream task model or even loss function for dealing with complicated relations. In this paper, a new network architecture with a special loss function is designed to serve as a downstream model of PLMs for supervised relation extraction. Experiments have shown that our method significantly exceeded the current optimal baseline models across multiple public datasets of relation extraction.
研究の動機と目的
- PLMsを使用する際の既存の関係抽出手法の限界を動機づけ、対処する。
- 特殊な表現と損失を組み込んだ、PLMsを活用する関係抽出の下流アーキテクチャを提案する。
- 文内での多関係および重複する関係の予測を可能にする。
提案手法
- 事前学習済み言語モデル(BERT)を用いてトークン埋め込みを取得し、CLSコンテキスト情報で補強する。
- 異なるBERT層から2つのエンティティ中心の埋め込み(ヘッドとテール)を抽出し、関係の手掛かりを捉える。
- ヘッドとテールの埋め込み間で非対称カernel内積を計算し、各関係タイプの関係傾向スコア行列を形成する。
- シグモイド活性化を適用してトークン対ごとの確率を得、エンティティマスクでエンティティ対を集約して関係確率を生成する。
- 各関係タイプについてマスクされたエンティティ対上で平均した二項交差エントロピー損失を用い、関係タイプごとに合計して最終損失を得る。
- 任意でNERコンポーネント(Bi-LSTM/CRF)を組み込み、 jointly抽出モデルを形成できるが、ここでは焦点ではない。
実験結果
リサーチクエスチョン
- RQ1特別に設計された下流タスクモデルと損失関数は、PLMsが関係抽出における複雑な関係を扱えるようにできるか?
- RQ2エンティティ表現を分解し、非対称の関係カーネルを使用することは、重複/多関係データの曖昧さ解消を改善するか?
- RQ3標準データセット(SemEval、NYT、WebNLG)における、提案されたPLMベースの下流アプローチの、特に複雑な関係シナリオ下での現代のベースラインに対する性能はどうか?
主な発見
| データセット | All(Micro-F1) | Best Baseline(All Micro-F1) | ギャップ(All) |
|---|---|---|---|
| SemEval | 91.0 | 89.5 | 1.5 |
| NYT | 89.8 | 87.5 | 2.3 |
| WebNLG | 96.3 | 88.8 | 7.5 |
- 提案手法は、SemEval、NYT、WebNLGで、いくつかのPost-BERTベースラインと比較して最先端のMicro-F1スコアを達成。
- SemEvalでは、モデルはMicro-F1 91.0 (All)に達し、ベストベースラインの89.5を上回る。
- NYTでは、Micro-F1 89.8 (All)に達し、ベストベースラインの87.5を上回る。
- WebNLGでは、Micro-F1 96.3 (All)に達し、ベストベースラインの88.8を上回る。
- 複雑な重複関係(EPO)や複数の関係に直面してもモデルは堅牢で、ほとんどのシナリオでベースラインを顕著に上回る。
- このアーキテクチャは、同じエンティティペア間の重複関係を含む、単一文内での多関係予測を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。