[論文レビュー] Reinforcement Learning for Relation Classification from Noisy Data
本論文は、ノイズのある distant-supervisionデータからの関係分類を行うための2モジュールモデル(強化学習によるインスタンスセレクターと文レベルの関係分類器)を提案し、強力なベースラインより文レベルの性能を向上させる。
Existing relation classification methods that rely on distant supervision assume that a bag of sentences mentioning an entity pair are all describing a relation for the entity pair. Such methods, performing classification at the bag level, cannot identify the mapping between a relation and a sentence, and largely suffers from the noisy labeling problem. In this paper, we propose a novel model for relation classification at the sentence level from noisy data. The model has two modules: an instance selector and a relation classifier. The instance selector chooses high-quality sentences with reinforcement learning and feeds the selected sentences into the relation classifier, and the relation classifier makes sentence level prediction and provides rewards to the instance selector. The two modules are trained jointly to optimize the instance selection and relation classification processes. Experiment results show that our model can deal with the noise of data effectively and obtains better performance for relation classification at the sentence level.
研究の動機と目的
- bagレベルから文レベルの予測へ移行することで、関係抽出の distant supervision におけるノイズのあるラベリングに対処する。
- 分類前にノイズの多い文をフィルタリングするため、強化学習で訓練されたインスタンスセレクターを導入する。
- インスタンスセレクターとCNNベースの関係分類器を共同訓練し、文レベルの精度とノイズへの頑健性を最大化する。
- 文レベルの予測の有効性と、すべての文がノイズの多い bag をフィルタリングする能力を示す。
提案手法
- 現在の文、選択済み文の集合、およびエンティティ対を組み合わせた状態表現を用いて、インスタンス選択を強化学習問題として定式化する。
- 各文を選択するかを決定するポリシーネットワークを用い、関係分類器の尤度に基づく終端報酬に導かれる。
- 単一の文に対して word と position の埋め込みを用いて p(r|x;Φ) を予測するCNNベースの関係分類器を採用する。
- 各 bag の末尾で遅延報酬を定義し、選択された文の質を最適化する。事前訓練を行ってから共同訓練を開始する。
- 学習を安定化させるため、ターゲットネットワークを用いた policy gradient (REINFORCE) で訓練する。
- データをエンティティ対ごとに bag に分割して報酬を bag レベルで評価し、CNN 訓練のために選択された文を結合する。
実験結果
リサーチクエスチョン
- RQ1ノイズのある distant supervision データから、文レベルの関係分類を効果的に学習できるか?
- RQ2RLベースのインスタンスセレクターは、文レベルのCNN関係分類器の訓練データの品質を向上させるか?
- RQ3このタスクにおいて、インスタンスセレクターと関係分類器の共同訓練は、bagレベルのベースラインより効果的か?
- RQ4すべての文がノイズの多い bag をモデルは扱い、それらをフィルタリングできるか?
- RQ5RLベースの手法は、greedy または attention に基づくインスタンス選択法とどう比較されるか?
主な発見
- CNN+RL は文レベルの関係分類で CNN、CNN+Max、CNN+ATT を上回る。
- RLベースのインスタンスセレクターで選択されたデータで訓練すると、元のノイズデータで訓練するより性能が向上する。
- 文レベルのモデルは、文レベルの予測において bagレベルのモデルより優れている。
- インスタンスセレクターは、すべてノイズ文を含む bag をフィルタリングできる(高ノイズ bag のフィルタリング能力)。
- 手動検査では、サンプル文に対してセレクターが74%の正確さを達成している(選択と拒否の正確さ)。
- RLベースの選択が greedy 選択を大幅に上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。