QUICK REVIEW

[論文レビュー] Multi-Level Structured Self-Attentions for Distantly Supervised Relation Extraction

Jinhua Du, Jingguang Han|arXiv (Cornell University)|Sep 3, 2018

Topic Modeling参考文献 19被引用数 37

ひとこと要約

本稿では、遠隔教師付き関係抽出のため、従来の1次元アテンションを2次元行列に拡張するマルチレベル構造的自己アテンション機構（MLSSA）を提案する。単語レベルおよび文レベルのアテンションを構造的2次元行列としてモデル化することで、文脈表現の向上と有効なインスタンス選択が実現され、NYTおよびDBpediaデータセットにおいてF1およびP@Nスコアで顕著な向上を達成し、最先端の性能を示した。

ABSTRACT

Attention mechanisms are often used in deep neural networks for distantly supervised relation extraction (DS-RE) to distinguish valid from noisy instances. However, traditional 1-D vector attention models are insufficient for the learning of different contexts in the selection of valid instances to predict the relationship for an entity pair. To alleviate this issue, we propose a novel multi-level structured (2-D matrix) self-attention mechanism for DS-RE in a multi-instance learning (MIL) framework using bidirectional recurrent neural networks. In the proposed method, a structured word-level self-attention mechanism learns a 2-D matrix where each row vector represents a weight distribution for different aspects of an instance regarding two entities. Targeting the MIL issue, the structured sentence-level attention learns a 2-D matrix where each row vector represents a weight distribution on selection of different valid in-stances. Experiments conducted on two publicly available DS-RE datasets show that the proposed framework with a multi-level structured self-attention mechanism significantly outperform state-of-the-art baselines in terms of PR curves, P@N and F1 measures.

研究の動機と目的

遠隔教師付き関係抽出における1次元アテンション機構の限界を是正する。具体的には、文の多様な意味的側面と複数の有効なインスタンスを捉える能力の欠如を解消する。
構造的単語レベルアテンションを用いて、エンティティペアの文脈表現学習を改善する。これにより、複数の意味的側面を捉える。
複数インスタンス学習における有効なインスタンス選択を向上させる。複数の文にわたる多様で構造的なアテンション分布を学習することで実現する。
遠隔教師付き学習における誤ラベル問題を克服する。構造的アテンションを活用し、ノイズの多いインスタンスを抑制し、情報量の多いインスタンスを強調することで実現する。
2次元構造的アテンションが、標準的な1次元アテンションおよび既存の最先端モデルを上回ることを実証する。

提案手法

各行がエンティティペアに対して文の単語上での異なるアテンション分布を学習する2次元行列ベースの単語レベル自己アテンション機構を提案。これにより、与えられたエンティティペアに対する文の複数の意味的側面を捉える。
複数のインスタンスにわたる複数のアテンションベクトルを学習する2次元行列ベースの文レベル自己アテンション機構を導入。これにより、情報量の多い文の構造的選択が可能になる。
2次元アテンション機構を双方向LSTMベースの複数インスタンス学習フレームワークに統合。これにより、長距離依存関係と文脈表現をモデル化できる。
L1正則化を用いてアテンション行列を最適化。これにより、直交する固有ベクトルが促進され、異なる側面におけるアテンションの焦点の多様性が向上する。
アテンションベクトルの重み付き和を用いて、文またはインスタンス集合の構造的で依存関係に類似した表現を形成する。これにより、関係分類が可能になる。
バックプロパゲーションを用いてアテンション重みを学習する。モデル全体をクロスエントロピー損失に基づいてエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ11次元アテンションと比較して、2次元構造的自己アテンション機構は、関係抽出における単語レベルの文脈表現学習を改善できるか？
RQ22次元構造的文レベルアテンション機構は、複数インスタンス学習設定において、有効なインスタンスをよりよく特定・重み付けできるか？
RQ3提案されたマルチレベル構造的自己アテンション機構は、公開のDS-REベンチマークで、既存の最先端モデルを顕著に上回るか？
RQ4提案モデルのアテンション分布は、標準的な1次元アテンションと比較して、焦点の多様性と意味的カバレッジの面でどのように異なるか？
RQ5構造的アテンション機構は、遠隔教師付き学習におけるノイズインスタンスの影響をどの程度軽減できるか？

主な発見

MLSSA-2モデルはPTテストセットでF1スコア78.1%を達成し、BiGRU+2ATTベースラインの75.3%を顕著に上回った。
NYTデータセットでは、MLSSA-2がP@N 78.1%を達成し、最高のベースライン（PCNN+ATT）を3.9ポイント上回った。
モデルは、1次元アテンションが単一の語やフレーズに集中するのとは異なり、複数のアテンションベクトルが異なる語や意味的側面に焦点を当てる、向上したアテンションの多様性を示した。
可視化結果から、MLSSA-2は「a founder of」と「co-founder」のような意味的に同等のフレーズに高いアテンションを割り当てており、それらの意味的同等性を認識していた。一方、BiGRU+2ATTはこれを達成できなかった。
構造的2次元アテンション機構により、意味的に同等の文にわたるアテンションがより均等に分散され、言い換えの影響に対してより頑健になった。
MLSSA-2は、NYTおよびDBpediaポルトガル語データセットの両方で、PR曲線、P@N、F1など複数の指標において最先端の性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。