[論文レビュー] Cross-Sentence N-ary Relation Extraction with Graph LSTMs
本論文は、文跨ぎの n-ary 関係を抽出するためのグラフ LSTM フレームワークを提案し、ベースラインより精度の向上を示し、生物医薬分野における distant supervision を可能にします。また、サブ関係を用いたマルチタスク学習を通じて性能を向上させることも示しています。
Past work in relation extraction has focused on binary relations in single sentences. Recent NLP inroads in high-value domains have sparked interest in the more general setting of extracting n-ary relations that span multiple sentences. In this paper, we explore a general relation extraction framework based on graph long short-term memory networks (graph LSTMs) that can be easily extended to cross-sentence n-ary relation extraction. The graph formulation provides a unified way of exploring different LSTM approaches and incorporating various intra-sentential and inter-sentential dependencies, such as sequential, syntactic, and discourse relations. A robust contextual representation is learned for the entities, which serves as input to the relation classifier. This simplifies handling of relations with arbitrary arity, and enables multi-task learning with related relations. We evaluate this framework in two important precision medicine settings, demonstrating its effectiveness with both conventional supervised learning and distant supervision. Cross-sentence extraction produced larger knowledge bases. and multi-task learning significantly improved extraction accuracy. A thorough analysis of various LSTM approaches yielded useful insight the impact of linguistic analysis on extraction accuracy.
研究の動機と目的
- 生物医薬分野のような高価値領域における文跨ぎ・n-ary 関係抽出の動機づけ。
- 文内および文間の依存性を符号化する統一的なグラフ LSTM フレームワークを開発する。
- 関係分類器へ供給するためのエンティティの頑健な文脈表現を学習する。
- 関連するサブ関係を用いたマルチタスク学習を有効化して抽出精度を向上させる。
- 監督学習および distant supervision 設定の下で評価し、言語学的寄与を分析する。
提案手法
- 語の隣接性・構文・談話関係を捉えるドキュメントグラフとしてテキストを表現する。
- 前向きおよび後向きの DAG パスを通じて文脈的語・エンティティ表現を計算するためにグラフ LSTM を用いる。
- 任意のアリティに対する関係分類器の入力としてエンティティ表現を結合する。
- 2 つのパラメータ化を探索する:完全なエッジ型固有パラメータとテンソル積を用いたエッジ型埋め込み。
- 同じ graph LSTM 表現を共有する関連サブ関係の分類器を追加してマルチタスク学習を適用する。
実験結果
リサーチクエスチョン
- RQ1豊富な文内・文間依存性を活用して、グラフ LSTM は文跨ぎの n-ary 関係を効果的にモデル化できるか?
- RQ2エッジ型固有パラメータまたはエッジ型埋め込みは文跨ぎの関係抽出を改善するか?
- RQ3サブ関係を用いたマルチタスク学習は n-ary および binary 関係の性能を向上させるか?
- RQ4生物医学ドメインにおける統語的/談話情報の文跨ぎ抽出への影響は何か?
- RQ5大規模な生物医薬系コーパスにおける distant supervision で文跨ぎ抽出はどのようにスケールするか?
主な発見
| モデル | 単一文 | 文跨ぎ |
|---|---|---|
| Feature-Based | 74.7 | 77.7 |
| CNN | 77.5 | 78.1 |
| BiLSTM | 75.3 | 80.1 |
| Graph LSTM - EMBED | 76.5 | 80.6 |
| Graph LSTM - FULL | 77.9 | 80.7 |
- Graph LSTM-FULL および Graph LSTM-EMBED は、Cross-sentence 的な三元関係抽出で、特徴量ベース、CNN、BiLSTM などのベースラインを上回る。
- Graph LSTMs は、クロス文設定で BiLSTMs と CNN を有意に上回る(p<0.05、McNemar の検定)。
- サブ関係を用いたマルチタスク学習は、三元および二元関係の両方で有意な利益をもたらす。
- エッジ型埋め込みは完全なパラメータ化と同等の性能を示し、パラメータ効率性を示唆する。
- PubMed Central からの文跨ぎ抽出は、単一文抽出よりはるかに多くの候補および検出相互作用を生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。