QUICK REVIEW

[論文レビュー] Stochastic Answer Networks for SQuAD 2.0

Xiaodong Liu, Wei Li|arXiv (Cornell University)|Sep 24, 2018

Topic Modeling参考文献 13被引用数 18

ひとこと要約

本論文は、SQuAD 2.0における機械的読解のための、Stochastic Answer Network (SAN) を拡張した共同学習フレームワークを提案する。スパン検出器と二値の非回答可能分類器を同時に学習することで、ELMoなどの大規模事前学習言語モデルを用いない状態で、開発セットにおいて69.27 EMおよび72.20 F1の最先端性能を達成し、非回答質問の処理における共同最適化の有効性を示している。

ABSTRACT

This paper presents an extension of the Stochastic Answer Network (SAN), one of the state-of-the-art machine reading comprehension models, to be able to judge whether a question is unanswerable or not. The extended SAN contains two components: a span detector and a binary classifier for judging whether the question is unanswerable, and both components are jointly optimized. Experiments show that SAN achieves the results competitive to the state-of-the-art on Stanford Question Answering Dataset (SQuAD) 2.0. To facilitate the research on this field, we release our code: https://github.com/kevinduh/san_mrc.

研究の動機と目的

既存モデルの主な制限である、非回答可能質問の検出の課題に対処すること。
スパン検出器と非回答分類器を共同で訓練することで、モデルの汎化性とロバスト性を向上させること。
ELMoのような大規模事前学習言語モデルに依存しない、シンプルでありながら効果的なアーキテクチャの開発すること。
スパン検出と非回答予測の共同最適化が、SQuAD 2.0における全体の性能向上に寄与することを示すこと。

提案手法

スパン検出と非回答分類のためのタスク固有の上位層を備えた、共有の低層（語彙符号化、文脈符号化、メモリ生成）を有するSANの拡張。
語彙符号化は、300次元のGloVe埋め込み、16次元のPOS、8次元のNER、4次元のハードルール特徴を用い、質問強化型の文書埋め込みでソフトマッチングを実現。
文脈符号化には、文脈表現を向上させるためにCoVeベクトルを連結した2層のBiLSTMを採用。
非回答分類器は、質問-文書ペアが非回答可能かどうかを判断するためのペアワイズ分類を実行する1層の全結合ネットワーク。
スパン検出と二値分類の両方の目的を統合したマルチタスク損失関数を用いて共同学習を実施。ハイパーパrameter λ が両目的のバランスを調整。
推論時、分類器が非回答性の確率が0.5を超えると、答えはNULLに設定される。

実験結果

リサーチクエスチョン

RQ1スパン検出と非回答質問分類の共同最適化は、別々の学習と比較して、SQuAD 2.0における性能向上をもたらすか？
RQ2ELMoのような大規模事前学習言語モデルを用いる最先端モデルと比較して、提案モデルの性能はどの程度か？
RQ3専用の非回答分類器を組み込むことで、スパン検出の性能を劣化させることなく、非回答質問の検出能力が向上するか？
RQ4共同学習設定において、スパン検出と非回答分類の目的の最適なバランスは何か？
RQ5ELMoを用いないモデルが、共同学習とアーキテクチャ設計を活用することで、SQuAD 2.0で競争力のある結果を達成できるか？

主な発見

共同モデル（Joint SAN）は、SQuAD 2.0開発セットにおいて、スタンドアロンのSANベースライン（67.89 EM）と比較してEMで+1.38、F1で+1.52向上（69.27 vs. 67.89, 72.20 vs. 70.68）。
推論時における分類器出力の追加（Joint SAN + Classifier）により、F1がさらに+0.46向上（72.66）し、明示的な非回答予測の利点が示された。
閾値0.5で開発セットにおいて75.3%の精度を達成し、λ=1.5で76.8%に向上した。
ELMoを一切使用しない状態で開発セットにおいて最先端の性能を達成し、R.M-Reader + Verifierのような複雑なモデルよりもF1スコアで0.7点優れた。
共同学習が両成分の性能向上に寄与することが示された。NULLを予測する際、分類器は一貫して非回答性の高い確率を割り当てた。
ELMoは顕著な向上効果を示した（例：DocQAではF1が+2.8ポイント向上）。今後のELMo統合によりさらなる性能向上が期待される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。