Skip to main content
QUICK REVIEW

[論文レビュー] DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction

Pengda Qin, Weiran Xu|arXiv (Cornell University)|May 24, 2018
Topic Modeling参考文献 21被引用数 24
ひとこと要約

本稿では、関係抽出のためのノイズの多い遠隔教師付きデータをフィルタリングする文レベルの真陽性生成器を学習する、DSGANと呼ばれる生成的対抗的フレームワークを提案する。生成器を訓練して偽の陽性を識別し、偽陽性を負例に再割り当てすることで、DSGANは複数の最先端アーキテクチャにおいてNYTデータセット上で下流のモデル性能を顕著に向上させる。

ABSTRACT

Distant supervision can effectively label data for relation extraction, but suffers from the noise labeling problem. Recent works mainly perform soft bag-level noise reduction strategies to find the relatively better samples in a sentence bag, which is suboptimal compared with making a hard decision of false positive samples in sentence level. In this paper, we introduce an adversarial learning framework, which we named DSGAN, to learn a sentence-level true-positive generator. Inspired by Generative Adversarial Networks, we regard the positive samples generated by the generator as the negative samples to train the discriminator. The optimal generator is obtained until the discrimination ability of the discriminator has the greatest decline. We adopt the generator to filter distant supervision training dataset and redistribute the false positive instances into the negative set, in which way to provide a cleaned dataset for relation classification. The experimental results show that the proposed strategy significantly improves the performance of distant supervision relation extraction comparing to state-of-the-art systems.

研究の動機と目的

  • 関係抽出における遠隔教師付き学習におけるノイズラベルの継続的問題に対処すること。
  • 従来のbagレベルのソフトアテンション手法よりも優れる文レベルのノイズ低減戦略を開発すること。
  • モデルに依存しない、即挿入型のデータクリーニング技術を構築し、一般的な関係抽出性能を向上させること。
  • 人為的アノテーションデータを必要とせずに、ロバストで無教師の方法で偽陽性サンプルをフィルタリングすることを可能にすること。

提案手法

  • DSGANは、生成的対抗的ネットワーク(GAN)フレームワークを採用し、生成器がノイズの多い遠隔教師付きデータから真陽性サンプルを生成するように学習する。
  • 識別器は、実際の陽性サンプルと生成された陽性サンプルを区別するように訓練され、生成されたサンプルは負例としてラベル付けされる。
  • 生成器は識別器をだませるように最適化され、対抗的フィードバックを通じて真陽性を識別する能力が向上する。
  • 識別器の分類性能が最小値に達した時点で最適な生成器が得られ、これは真陽性と偽陽性の効果的な分離を示している。
  • 最終的な生成器を用いて訓練セットをフィルタリングする:生成器が生成したインスタンスは負例に移動され、下流の関係分類のためのデータセットがクリーニングされる。
  • この手法は前処理ステップとして適用されるため、任意の関係抽出モデルと互換性がある。

実験結果

リサーチクエスチョン

  • RQ1対抗的学習は、関係抽出のための遠隔教師付きデータのノイズ除去に効果的に適用可能か?
  • RQ2文レベルのノイズ低減戦略は、従来のbagレベルのソフトアテンション手法よりも偽陽性の処理において優れているか?
  • RQ3教師なしで訓練された生成器は、ノイズの多いデータセットから真陽性サンプルを識別できるか?
  • RQ4DSGANは、ベンチマークデータセット上で最先端の関係抽出器の性能をどの程度向上させるか?

主な発見

  • DSGANは、NYTデータセット上でテストされたすべての関係抽出器のAUC性能を顕著に向上させ、すべてのケースでp値 < 0.05を達成した。
  • CNN+ONEモデルではAUCが0.177から0.189に、PCNN+ATTモデルでは0.253から0.264に向上した。
  • DSGANが生成した陽性セットは、事前学習済み生成器とベースラインセットを上回り、真陽性の識別能力が優れていることを示した。
  • すべての文が偽陽性であるエンティティペアのケースに対しても、本手法は効果的に対処でき、従来のソフトアテンション手法の限界を克服した。
  • 複数のモデルで一貫した性能向上が得られたことから、本手法のモデルに依存しない性質とロバスト性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。