Skip to main content
QUICK REVIEW

[論文レビュー] Few-shot Relation Extraction via Bayesian Meta-learning on Relation Graphs

Meng Qu, Tianyu Gao|arXiv (Cornell University)|Jul 5, 2020
Topic Modeling参考文献 33被引用数 65
ひとこと要約

本論文は、グローバルなリレーショングラフを用いて事前知識をモデル化し、少数ショットおよびゼロショットのリレーション抽出のために、確率的勾配 Langevin ダイナミクスを用いてリレーションプロトタイプの後方サンプリングを行うベイズ的メタ学習フレームワークを提案する。

ABSTRACT

This paper studies few-shot relation extraction, which aims at predicting the relation for a pair of entities in a sentence by training with a few labeled examples in each relation. To more effectively generalize to new relations, in this paper we study the relationships between different relations and propose to leverage a global relation graph. We propose a novel Bayesian meta-learning approach to effectively learn the posterior distribution of the prototype vectors of relations, where the initial prior of the prototype vectors is parameterized with a graph neural network on the global relation graph. Moreover, to effectively optimize the posterior distribution of the prototype vectors, we propose to use the stochastic gradient Langevin dynamics, which is related to the MAML algorithm but is able to handle the uncertainty of the prototype vectors. The whole framework can be effectively and efficiently optimized in an end-to-end fashion. Experiments on two benchmark datasets prove the effectiveness of our proposed approach against competitive baselines in both the few-shot and zero-shot settings.

研究の動機と目的

  • 限られたラベル付きデータで少数ショットのリレーション抽出を動機づける。
  • 異なるリレーション間の関係性を捉えるためにグローバルなリレーショングラフを活用する。
  • 不確実性に対処するため、プロトタイプベクトルを点推定ではなく後方分布としてモデル化する。
  • リレーショングラフからの事前をパラメータ化するためにグラフニューラルネットワークを使用し、後方サンプリングには Langevin ダイナミクスを適用する。
  • FewRel および NYT-25 において、少数ショットおよびゼロショット設定の双方で有効性を実証する。

提案手法

  • 各リレーションをプロトタイプベクトルで表し、それを後方分布を持つ確率変数として扱う。
  • Wikidata 埋め込みに基づくグローバルなリレーショングラフ上のグラフニューラルネットワークを用いて prior p(v_T|G) をパラメータ化する。
  • サポート文に対する尤度 p(y_S|x_S, v_T) を、プロトタイプベクトルと文エンコーダEのソフトマックスで定義する。
  • 難解な後方分布 p(v_T|x_S,y_S,G) を、モンテカルロサンプリングと確率的勾配 Langevin ダイナミクスを用いて近似し、複数のプロトタイプサンプルを得る。
  • 抽出されたプロトタイプを用いてクエリ予測の p(y_Q|x_Q, v_T) を計算し、エンドツーエンドで最適化する。
  • Langevin サンプルの初期化は、グラフベースの事前とサポート集合のエンコーディングを組み合わせた理論的に動機づけられたスキームで行い、収束を加速する。

実験結果

リサーチクエスチョン

  • RQ1グローバルなリレーショングラフは、多様なリレーション間で転移可能な事前情報を提供し、少数ショットのリレーション抽出を改善できるか。
  • RQ2後方分布をもつプロトタイプベクトルを用いたベイズ的メタ学習は、点推定を用いるメタ学習法より少数ショットおよびゼロショット設定で優れているか。
  • RQ3タスクの汎化とゼロショット能力に対するグラフベースの事前情報の取り込みの影響はどうか。
  • RQ4複雑な後方分布からリレーションプロトタイプをサンプリングする際の確率的勾配 Langevin ダイナミクスの有効性はどの程度か。

主な発見

  • FewRel テストセットで、REGRAB は高い性能を達成:例) 5-Way 1-Shot: 90.30%、5-Way 5-Shot: 94.25%。
  • NYT-25 テストセットで、REGRAB は 5-Way 1-Shot: 89.76%、5-Way 5-Shot: 95.66%、10-Way 1-Shot: 84.11%、10-Way 5-Shot: 92.48% を達成。
  • アブレーションでは、グラフベースの事前情報を削除すると精度が低下する(FewRel バリデーション、5-Way 1-Shot: 87.95 vs 85.82; 10-Way 1-Shot: 80.26 vs 77.70)。
  • グローバルリレーショングラフを用いて事前を計算するとゼロショット性能は依然として高く、いくつかの設定で非グラフベースのベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。