[論文レビュー] PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text
PullNet は、質問誘導型のサブグラフとグラフCNNを用いて、弱教師付きでマルチホップ推論を行い、知識ベース(KB)とテキストコーパスの双方からの回答を得るために、知識ベースとテキストコーパスを反復的に取りに行く方法を学習する。
We consider open-domain queston answering (QA) where answers are drawn from either a corpus, a knowledge base (KB), or a combination of both of these. We focus on a setting in which a corpus is supplemented with a large but incomplete KB, and on questions that require non-trivial (e.g., ``multi-hop'') reasoning. We describe PullNet, an integrated framework for (1) learning what to retrieve (from the KB and/or corpus) and (2) reasoning with this heterogeneous information to find the best answer. PullNet uses an {iterative} process to construct a question-specific subgraph that contains information relevant to the question. In each iteration, a graph convolutional network (graph CNN) is used to identify subgraph nodes that should be expanded using retrieval (or ``pull'') operations on the corpus and/or KB. After the subgraph is complete, a similar graph CNN is used to extract the answer from the subgraph. This retrieve-and-reason process allows us to answer multi-hop questions using large KBs and corpora. PullNet is weakly supervised, requiring question-answer pairs but not gold inference paths. Experimentally PullNet improves over the prior state-of-the art, and in the setting where a corpus is used with incomplete KB these improvements are often dramatic. PullNet is also often superior to prior systems in a KB-only setting or a text-only setting.
研究の動機と目的
- 回答がKB、コーパス、またはその両方から得られるオープンドメインQAを動機づける。特にKBが不完全な場合。
- 質問特異的な異種サブグラフを構築する統合的で反復的な取り出しフレームワークを提案する。
- QAペアからの弱教師付きで、テキストとKBデータを用いたエンドツーエンドの推論をグラフCNNで実現する。
提案手法
- エンティティ、テキスト、事実ノードからなる異種の質問サブグラフを定義する。
- 学習された pull-operations classifier を用いて関連文書とKBの事実を取り出すことで、サブグラフを反復的に分類・拡張する。
- IDFベースの Lucene pull_docs によって文書を取得し、関係埋め込みと質問エンコーディングの間の学習された類似度 S(r,q) によって事実を取得する。
- 各反復後に新たに取得したノードとエッジを含むようサブグラフを更新する。
- グラフCNN(GRAFT-Net風)を用いてノード表現を計算し、取り出すエンティティと最も回答となるノードを選択する。
- QAペアと最短経路推論信号を活用して弱教師付きでトレーニングする。
実験結果
リサーチクエスチョン
- RQ1KBが不完全な場合に、KBとテキストコーパスを用いた反復的で質問ガイド付き な取り出しプロセスはオープンドメインQAの性能を改善できるか?
- RQ2何を取り出すかを学習すること(ヒューリスティクスに依存するのではなく)は、より小さく、より関連性の高いサブグラフとより良いマルチホップ推論を生み出すか?
- RQ3マルチホップ質問を含むベンチマークにおいて、KBとテキストソースを組み合わせることは、いずれか一方のソースのみを使用する場合とどう比較されるか?
主な発見
- PullNetは、KB+テキストのオープンドメQAベンチマークで最先端または競争力のある結果を達成し、特にKBが不完全な場合に顕著。
- KBのみの設定で、PullNetは2ホップおよび3ホップの質問でベースラインと比較して著しく改善する。
- テキストのみ、または不完全なKB+テキスト設定では、PullNetはベースラインを上回り、しばしばKBのみやテキストのみのアプローチを越える。
- 反復的な取り出しは、ヒューリスティックなワンショット取り出し法よりも小さなサブグラフでより高いリコールをもたらす。
- MetaQAの3ホップ質問で、KB設定において hits-at-one を62.5%から91.4%へ改善。
- KBが不完全な Complex WebQuestions において、特定の設定でGRAFTNetより6.8%(絶対値)改善。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。