QUICK REVIEW

[論文レビュー] RESIDE: Improving Distantly-Supervised Neural Relation Extraction using Side Information

Shikhar Vashishth, Rishabh Joshi|arXiv (Cornell University)|Dec 11, 2018

Topic Modeling参考文献 27被引用数 24

ひとこと要約

RESIDE は、エンティティタイプと関係エイリアスといったサイド情報（副次的情報）をソフト制約として組み込むことで、遠隔教師あり関係抽出を改善するニューラル関係抽出モデルである。構文的構造はグラフ畳み込みネットワーク（GCN）で符号化され、ベンチマークデータセットで最先端の性能を達成しており、サイド情報が限られている状況でも有効であることが示された。

ABSTRACT

Distantly-supervised Relation Extraction (RE) methods train an extractor by automatically aligning relation instances in a Knowledge Base (KB) with unstructured text. In addition to relation instances, KBs often contain other relevant side information, such as aliases of relations (e.g., founded and co-founded are aliases for the relation founderOfCompany). RE models usually ignore such readily available side information. In this paper, we propose RESIDE, a distantly-supervised neural relation extraction method which utilizes additional side information from KBs for improved relation extraction. It uses entity type and relation alias information for imposing soft constraints while predicting relations. RESIDE employs Graph Convolution Networks (GCN) to encode syntactic information from text and improves performance even when limited side information is available. Through extensive experiments on benchmark datasets, we demonstrate RESIDE's effectiveness. We have made RESIDE's source code available to encourage reproducible research.

研究の動機と目的

知識ベースから得られるノイズの多い訓練インスタンスに依存する遠隔教師あり関係抽出の限界を解消すること。
知識ベースに存在するが未だ十分に活用されていないサイド情報（エンティティタイプや関係エイリアスなど）の潜在的価値を検証し、関係抽出の精度向上に寄与する可能性を追求すること。
関係予測の過程でソフト制約を課すように、サイド情報を原理的かつ整合的に統合するニューラルモデルを設計すること。
特に低リソース環境下でのモデルの頑健性と性能向上に寄与するサイド情報、特に関係エイリアスの有効性を評価すること。

提案手法

RESIDE は、文を符号化するためにデュアルストリームアプローチを採用：文脈的な単語埋め込みには Bi-GRU を、依存解析から得られる構文的依存関係のモデル化にはグラフ畳み込みネットワーク（GCN）を用いる。
トークンレベルの表現を文レベルの表現に集約するために、語彙レベルのアテンションを適用する。
エンティティタイプと関係エイリアス情報は埋め込み表現に変換され、文レベルのアテンションを計算する前に文の表現と連結される。
関係分類の段階で、サイド情報をアテンション層および分類層に組み込むことで、ソフト制約を適用する。
モデルはソフトマックス分類器を用いて関係を予測し、サイド情報が予測プロセスを意味的に妥当な関係に導くように制御される。
交差エントロピー損失を用いてエンドツーエンドで学習され、サイド情報は補助的監視信号として統合される。

実験結果

リサーチクエスチョン

RQ1エンティティタイプと関係エイリアスといったサイド情報を組み込むことで、遠隔教師あり関係抽出の性能にどのような影響を与えるか？
RQ2構文的符号化にグラフ畳み込みネットワーク（GCN）を用いることで、標準的なRNNやCNNと比較して、関係抽出性能がどの程度向上するか？
RQ3関係エイリアス情報が限られた場合、あるいは全く利用できない場合、RESIDE はどの程度の性能を示すか？
RQ4エンティティタイプと関係エイリアスの両情報のうち、モデルの一般化性能向上に寄与する相対的な貢献度はどの程度か？
RQ5標準的および低リソース設定の両方において、RESIDE は最先端のニューラルベースラインを上回る性能を発揮できるか？

主な発見

RESIDE は Riedel および GDS ベンチマークデータセットで最先端の性能を達成し、すべての評価指標において PCNN、PCNN+ATT、BGWA を上回った。
Riedel データセットでは、P@100 が 84.0、P@200 が 78.5、P@300 が 75.6 を達成し、次に優れたベースラインである BGWA より顕著に優れた性能を示した。
アブレーションスタディの結果、GCN もしくはサイド情報を削除すると性能が著しく低下し、両者の重要性が裏付けられた。
たとえ1つの関係エイリアス（例：関係名そのもの）しか利用できない場合でも、RESIDE は高い性能を維持しており、限られたサイド情報に対しても頑健であることが示された。
Wikidata 知識ベースから抽出された関係エイリアスを用いた場合、RESIDE は最高の性能を達成し、より豊富なサイド情報が結果を向上させることを確認した。
1文、2文、またはすべての文を含む袋（bag）のサイズに関わらず、一貫した性能向上が得られたことから、多様な学習設定において有効であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。