[論文レビュー] Coarse-grain Fine-grain Coattention Network for Multi-evidence Question Answering
Coarse-grain Fine-grain Coattention (CFC) ネットワークを多証拠QAに導入し、複数の文書に対する粗粒度推論を細粒度で候補に焦点を当てた推論と組み合わせ、事前学習済みエンコーダなしでWikiHopにおける最先端を達成し、TriviaQAのリランクを改善します。
End-to-end neural models have made significant progress in question answering, however recent studies show that these models implicitly assume that the answer and evidence appear close together in a single document. In this work, we propose the Coarse-grain Fine-grain Coattention Network (CFC), a new question answering model that combines information from evidence across multiple documents. The CFC consists of a coarse-grain module that interprets documents with respect to the query then finds a relevant answer, and a fine-grain module which scores each candidate answer by comparing its occurrences across all of the documents with the query. We design these modules using hierarchies of coattention and self-attention, which learn to emphasize different parts of the input. On the Qangaroo WikiHop multi-evidence question answering task, the CFC obtains a new state-of-the-art result of 70.6% on the blind test set, outperforming the previous best by 3% accuracy despite not using pretrained contextual encoders.
研究の動機と目的
- 複数の文書を横断して情報を集約することによって多証拠質問回答を扱う。
- 長い文書コレクションを扱うために粗粒度推論と細粒度推論を分離するモデルを開発する。
- クエリと候補に基づいて表現を条件付ける階層的共注意と自己注意を活用する。
- WikiHopとTriviaQAで評価し、従来手法に対する改善を示す。
- モデルの挙動を理解するために注意階層と誤差タイプを分析する。
提案手法
- 粗粒度モジュールが共注意を通じてサポート文書とクエリの共依存表現を構築し、その後粗い要約を作成する。
- 候補依存の細粒度モジュールは各候補の言及を特定し、これらの言及に対するクエリとの共注意コンテキストを計算し、候補をスコアリングする要約を作成する。
- 両モジュールとも階層的共注意と自己注意を用いて入力の異なる部分に焦点を当てる。
- クエリ・サポート文書・候補をBiGRUベースのエンコーダでエンコードし、coattention出力に対して粗粒度の自己注意を適用;候補の言及に細粒度機構を適用し、語彙的照合によるコアリファレンス風の抽出で要約し、粗粒度スコアと細粒度スコアを合計して最終候補をスコアリング。
- クロスエントロピー損失で学習;WikiHop(unmaskedおよびmasked)とTriviaQAで評価;ベースライン・アブレーションと比較。
実験結果
リサーチクエスチョン
- RQ1複数文書を横断して明示的に粗粒度から細粒度推論をモデル化することで、多証拠QAを改善できるか。
- RQ2階層的共注意と自己注意は、事前学習済みエンコーダなしで長い文書コレクションをよりよく集約することを可能にするか。
- RQ3粗粒度と細粒度の分割はWikiHopとTriviaQAの性能と誤差パターンにどう影響するか。
主な発見
| Model | Masked Dev | Dev | Test |
|---|---|---|---|
| CFC (ours) | 72.1% | 66.4% | 70.6% |
| Enitity-GCN (Cao et al., 2018) | 70.5% | 64.8% | 67.6% |
| MHQA-GRN (Song et al., 2018) | - | 62.8% | 65.4% |
| Jenga (Facebook AI Research*, 2018) | - | - | 65.3% |
| Vanilla Coattention Model (NTU*, 2018) | - | - | 59.9% |
| Coref GRU (Dhingra et al., 2018) | - | 56.0% | 59.3% |
| BiDAF Baseline (Welbl et al., 2018) | 54.5% | - | 42.9% |
- CFCはWikiHopのブラインドテストで70.6%の精度を達成し、事前学習済み文脈エンコーダなしでこれまでの最高値を3ポイント上回った。
- WikiHopの開発データではCFCは66.4%(Dev)、72.1%(Masked Dev)を達成。
- CFCによるTriviaQAのリランキングは開発セットでEMを3.1%、F1を3.0%改善。
- アブレーション実験では粗粒度モジュールと細粒度モジュールの両方が性能に実質的に寄与しており、どちらかを除くと結果が悪化。
- 自己注意と文脈エンコーディングは重要で、エンコーダGRUを単方向版または平均プーリングに置換すると性能が低下。
- 細粒度モデルは長い文書が多い場合に優れ、粗粒度モデルは文書数が少ない場合に支配的。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。