[論文レビュー] Improving Relation Extraction by Pre-trained Language Representations
TRE は Transformer フレームワーク内で事前学習済み言語表現を用いてリレーション抽出を行い、TACRED および SemEval 2010 Task 8 で最先端の結果を達成し、サンプル効率が向上することを示している。
Current state-of-the-art relation extraction methods typically rely on a set of lexical, syntactic, and semantic features, explicitly computed in a pre-processing step. Training feature extraction models requires additional annotated language resources, which severely restricts the applicability and portability of relation extraction to novel languages. Similarly, pre-processing introduces an additional source of error. To address these limitations, we introduce TRE, a Transformer for Relation Extraction, extending the OpenAI Generative Pre-trained Transformer [Radford et al., 2018]. Unlike previous relation extraction models, TRE uses pre-trained deep language representations instead of explicit linguistic features to inform the relation classification and combines it with the self-attentive Transformer architecture to effectively model long-range dependencies between entity mentions. TRE allows us to learn implicit linguistic features solely from plain text corpora by unsupervised pre-training, before fine-tuning the learned language representations on the relation extraction task. TRE obtains a new state-of-the-art result on the TACRED and SemEval 2010 Task 8 datasets, achieving a test F1 of 67.4 and 87.1, respectively. Furthermore, we observe a significant increase in sample efficiency. With only 20% of the training examples, TRE matches the performance of our baselines and our model trained from scratch on 100% of the TACRED dataset. We open-source our trained models, experiments, and source code.
研究の動機と目的
- relation extraction における明示的な言語特徴エンジニアリングへの依存を減らす動機付け。
- TRE を紹介する。これはリレーション分類のために事前学習済み言語表現を使用する Transformer ベースのモデルである。
- 標準ベンチマークにおいて教師なし事前学習が性能とサンプル効率を改善することを示す。
提案手法
- relation extraction 用の構造化入力を処理するためにデコーダーのみの Transformer アーキテクチャを使用する。
- relation の引数と文をエンコードするために BPE サブワードトークンとタスク固有のデリミタを用いた入力表現を採用する。
- プレーンテキストを用いた言語モデリング目的で事前学習を行い、ファインチューニング時には補助的な LM 目的を用いてリレーション抽出をファインチューニングする。
- 最終的な Transformer 状態からリレーションラベルを予測する線形 softmax 分類器を用いてファインチューニングし、必要に応じて LM 目的を重み付けする(lambda)。
- 一般化と正則化効果を調べるためにエンティティマスキング戦略(UNK、NE、GR、NE+GR)を実験する。
実験結果
リサーチクエスチョン
- RQ1明示的な言語特徴を用いず、言語表現による事前学習はリレーション抽出の性能を向上させるか?
- RQ2TRE は TACRED および SemEval 2010 Task 8 において最先端モデルとどう比較されるか?
- RQ3エンティティマスキングが一般化とサンプル効率に与える影響は何か?
- RQ4学習データが限られている場合、TRE はベースラインと比較してどれだけサンプル効率が高いか?
主な発見
| システム | P | R | F1 |
|---|---|---|---|
| LR † Zhang et al. (2017) | 72.0 | 47.8 | 57.5 |
| CNN † Zhang et al. (2017) | 72.1 | 50.3 | 59.2 |
| Tree-LSTM † Zhang et al. (2018) | 66.0 | 59.2 | 62.4 |
| PA-LSTM † Zhang et al. (2018) | 65.7 | 64.5 | 65.1 |
| C-GCN † Zhang et al. (2018) | 69.9 | 63.3 | 66.4 |
| TRE (ours) | 70.1 | 65.0 | 67.4 |
| SVM † Rink and Harabagiu (2010) | – | – | 82.2 |
| PA-LSTM † Zhang et al. (2018) | – | – | 82.7 |
| C-GCN † Zhang et al. (2018) | – | – | 84.8 |
| DRNN † Xu et al. (2016) | – | – | 86.1 |
| BRCNN † Cai et al. (2016) | – | – | 86.3 |
| PCNN Zeng et al. (2015) | – | – | 86.6 |
| TRE (ours) | – | – | 87.1 (±0.16) |
- TRE は TACRED (67.4) および SemEval 2010 Task 8 (87.1) で最先端の F1 を達成。
- 事前学習済み言語表現は性能を大幅に向上させ、特にエンティティがマスクされていない場合に正則化効果を示す。
- エンティティマスキング(NE+GR)は高い性能を示し、言語表現がエンティティタイプおよび役割情報に類似した有用な特徴を捉えていることを示唆する。
- TRE は顕著なサンプル効率を示し、TACRED のトレーニングデータのわずか 20% で高い F1 に到達。
- マスクされていないエンティティは過学習につながる可能性がある。マスキング戦略は未見のエンティティへの一般化を助ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。