QUICK REVIEW

[論文レビュー] LUKE: Deep Contextualized Entity Representations with Entity-aware Self-attention

Ikuya Yamada, Akari Asai|arXiv (Cornell University)|Oct 2, 2020

Topic Modeling参考文献 41被引用数 34

ひとこと要約

LUKEは、単語とエンティティをトークンとして扱い、エンティティ認識型自己注意機構を用いるトランスフォーマーを用いて、事前学習済みの文脈化された語とエンティティ表現を導入し、複数のエンティティ関連タスクで最先端の結果を達成します。

ABSTRACT

Entity representations are useful in natural language tasks involving entities. In this paper, we propose new pretrained contextualized representations of words and entities based on the bidirectional transformer. The proposed model treats words and entities in a given text as independent tokens, and outputs contextualized representations of them. Our model is trained using a new pretraining task based on the masked language model of BERT. The task involves predicting randomly masked words and entities in a large entity-annotated corpus retrieved from Wikipedia. We also propose an entity-aware self-attention mechanism that is an extension of the self-attention mechanism of the transformer, and considers the types of tokens (words or entities) when computing attention scores. The proposed model achieves impressive empirical performance on a wide range of entity-related tasks. In particular, it obtains state-of-the-art results on five well-known datasets: Open Entity (entity typing), TACRED (relation classification), CoNLL-2003 (named entity recognition), ReCoRD (cloze-style question answering), and SQuAD 1.1 (extractive question answering). Our source code and pretrained representations are available at https://github.com/studio-ousia/luke.

研究の動機と目的

下流のエンティティ関連タスクのために、テキスト中のエンティティのモデリングを改善する動機付け。
単語とエンティティを共にトークンとして表現する、統一的なTransformerベースのモデルを提案する。
Wikipedia由来データに対して、マスクされたエンティティをマスクして予測する新しい事前学習目的を導入する。
アテンション計算時にトークンタイプを区別する、エンティティ認識型自己注意機構を開発する。
複数のエンティティ中心のベンチマークで最先端の性能を示す。

提案手法

単語とエンティティを統一されたTransformerアーキテクチャ内で独立したトークンとして扱う。
トークン表現を形成するために、3つの入力埋め込み（トークン、位置、エンティティタイプ）を用いる。
大規模なWikipedia由来のコーパス上で、MLMとエンティティマスキング目的を併用して事前学習する。
タイプ依存のクエリ行列（Q_w2e、Q_e2w、Q_e2e）を用いたエンティティ認識型自己注意を導入し、クロスタイプのアテンションを行う。
LUKE表現の上に簡単な線形分類器を用いて様々なタスクをファインチューニングする。

実験結果

リサーチクエスチョン

RQ1Transformer内で単語とエンティティのトークン表現を結合することは、エンティティ中心のタスク（型付け、NER、QA、関係分類）を改善するか？
RQ2エンティティ認識型自己注意機構は、標準の自己注意と比べてエンティティ間の関係推論を改善するか？
RQ3Wikipediaに注釈されたデータからのエンティティ表現は、語のみに基づく事前学習と比較して下流の性能をどの程度改善するか？

主な発見

Dataset	Metric	Value
Open Entity	F1	78.2
TACRED	F1	72.7
CoNLL-2003	F1	94.3
ReCoRD	EM	90.8
ReCoRD	F1	91.4
SQuAD	EM	89.8
SQuAD	F1	95.0

LUKEは5つのデータセットで最先端の結果を達成: Open Entity (エンティティ型付け), TACRED (関係分類), CoNLL-2003 (NER), ReCoRD (クローズ型QA), SQuAD 1.1 (抽出型QA)。
Open Entityでは、LUKEは78.2 F1を達成（RoBERTa 76.2に対して）、前例の最高を2.0 F1上回る。
TACREDでは72.7 F1を達成（RoBERTa 71.3に対して）、前 bestを0.7 F1上回る。
CoNLL-2003では94.3 F1、最先端、 priorより約0.8 F1上回る。
ReCoRDでは91.4 F1 (Dev) / 90.9+ EM、RoBERTaベースラインを上回る。
SQuAD 1.1では95.0 F1 (Dev) / 89.8 EM、RoBERTaおよびXLNetのベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。