[論文レビュー] Learning Recurrent Span Representations for Extractive Question Answering
RaSoR は Passage 内のすべての可能な回答スパンを明示的にスコアリングする再帰的スパン表現を導入し、グローバル正規化と正確なデコードを可能にし、SQuAD exact-match と F1 を従来のスパンベース手法を超えて向上させます。
The reading comprehension task, that asks questions about a given evidence document, is a central problem in natural language understanding. Recent formulations of this task have typically focused on answer selection from a set of candidates pre-defined manually or through the use of an external NLP pipeline. However, Rajpurkar et al. (2016) recently released the SQuAD dataset in which the answers can be arbitrary strings from the supplied text. In this paper, we focus on this answer extraction task, presenting a novel model architecture that efficiently builds fixed length representations of all spans in the evidence document with a recurrent network. We show that scoring explicit span representations significantly improves performance over other approaches that factor the prediction into separate predictions about words or start and end markers. Our approach improves upon the best published results of Wang & Jiang (2016) by 5% and decreases the error of Rajpurkar et al.'s baseline by > 50%.
研究の動機と目的
- 回答が文書から任意のスパンとして現れる SQuAD における抽出型 QA を動機づける。
- すべての候補スパンを明示的に表現しスコアリングするモデルを提案する。
- スパン間のグローバル正規化と貪欲探索なしの正確なデコードを可能にする。
- 従来のスパンベースおよびシーケンスベースの QA モデルに対する改善を示す。
提案手法
- すべての候補スパンに対して確率分布を定義し、それをスパンレベルのニューラルスコアでスコアリングする。
- 文書の埋め込みを、文書対応の質問表現と文書非依存の質問表現を結合して、質問に焦点を当てた passage 埋め込みを構築する。
- 共有サブ構造全体で計算を再利用するために、 passageレベルの BiLSTM を用いてすべての候補スパンを効率的にエンコードする。
- 各スパンを、開始位置と終了位置の BiLSTM 出力を連結したものとして h_a で表現する。
- スパンスコアは s_a = w_a · FFNN(h_a) で計算し、すべてのスパンに対してソフトマックスで正規化する。
- 正しいスパンの対数尤度を最大化することでエンドツーエンドで学習する。
実験結果
リサーチクエスチョン
- RQ1あらゆる潜在的な回答スパンを明示的にモデリングしスコアリングすることは、開始/終了のエンドツーエンド予測モデルよりQA性能を改善するか?
- RQ2さまざまな質問表現(文書対応 vs. 文書依存なし)は、スパンベースのQA性能にどのように影響するか?
- RQ3正確な回答スパンの予測というタスクに最も適した学習目的は何か?
主な発見
- RaSoR は、公開済みの最良システムよりも高い EM と F1 を達成する(Dev で RaSoR EM 66.4、F1 74.9、Test で EM 67.4、F1 75.5)。
- RaSoR は SQuAD のロジスティック回帰ベースラインに対して誤差を50%以上低減する。
- RaSoR は Dev で最も強力な Match-LSTM ベースラインを EM で約5ポイント、F1 で約3.6ポイント改善し、人間の性能上限に対するギャップを>50%縮小した。
- アブレーション実験では、文書対応の質問表現が性能にとって決定的である一方、文書非依存の表現は小さいがなお正の寄与を提供する。
- エンドポイント間の相互作用をモデル化する(スパンレベル FFNN)は、エンドポイントのみの variante より正確一致を改善し、特に長いスパンで顕著である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。