Skip to main content
QUICK REVIEW

[論文レビュー] Stochastic Answer Networks for Machine Reading Comprehension

Xiaodong Liu, Yelong Shen|arXiv (Cornell University)|Dec 10, 2017
Topic Modeling参考文献 30被引用数 34
ひとこと要約

この論文では、訓練中に答えモジュールに確率的予測ドロップアウトを適用することで、マルチステップ推論を改善する、シンプルでありながら頑丈なニューラルネットワークアーキテクチャであるStochastic Answer Networks (SAN) を紹介する。最終ステップに依存するのではなく、複数の推論ステップにおける予測の平均化により、強化学習を必要とせず、SQuAD、 adversarial SQuAD、および MS MARCO で最先端の性能を達成し、モデルの頑健性と正確性が著しく向上する。

ABSTRACT

We propose a simple yet robust stochastic answer network (SAN) that simulates multi-step reasoning in machine reading comprehension. Compared to previous work such as ReasoNet which used reinforcement learning to determine the number of steps, the unique feature is the use of a kind of stochastic prediction dropout on the answer module (final layer) of the neural network during the training. We show that this simple trick improves robustness and achieves results competitive to the state-of-the-art on the Stanford Question Answering Dataset (SQuAD), the Adversarial SQuAD, and the Microsoft MAchine Reading COmprehension Dataset (MS MARCO).

研究の動機と目的

  • 複数ステップの推論における課題に対処すること。具体的には、文間をまたがる情報を統合し、反復的推論を実行する必要がある。
  • 最終予測ステップに依存するのを減らすことで、読解タスクにおけるモデルの頑健性と一般化性能を向上させること。
  • 強化学習の複雑さと不安定さを回避しつつ、効果的なマルチステップ推論を可能にする訓練手法を開発すること。
  • 強化学習を用いないシンプルでバックプロパゲーションに適した訓練スキームを用いて、SQuAD、 adversarial SQuAD、および MS MARCO などのベンチマークデータセットで最先端の性能を達成すること。

提案手法

  • モデルは4層構造を採用する:語彙符号化、BiLSTMを用いた文脈符号化、アテンションと自己アテンションを備えた作業記憶、およびGRUベースの段階的予測を行う答えモジュール。
  • 訓練中に答えモジュールに確率的予測ドロップアウトを適用し、各推論ステップで予測をランダムにドロップアウトすることで、特定の1ステップに過剰に依存するのを防ぐ。
  • 推論時、最終的な答えは全段階の予測の平均として予測され、複数の精練ステップにわたる確率的アンサンブルが効果的に構築される。
  • 標準的なバックプロパゲーションを用いて訓練されるため、先行する動的ステップモデルで用いられるような不安定な強化学習手法を回避できる。
  • 複数の本文を用いた読解タスクでは、各本文からの候補答えをSANでスコア付けし、別個の本文ランカーを用いて再順序付けを行う。
  • 答えモジュールは、各推論ステップでスパンの開始位置および終了位置の多項分布を生成するGRUである。

実験結果

リサーチクエスチョン

  • RQ1答えモジュールに確率的ドロップアウトを適用するようなシンプルな訓練技術が、機械読解におけるマルチステップ推論を改善できるか?
  • RQ2複数の推論ステップにおける予測の平均化は、最終予測ステップに依存するのと比較して、より高い頑健性と正確性をもたらすか?
  • RQ3動的ステップ選択に強化学習を用いずに、最先端の性能をMRCベンチマークで達成できるか?
  • RQ4固定ステップおよび動的ステップ推論モデルと比較して、提案手法は頑健性および一般化性能において優れているか?

主な発見

  • MS MARCOの開発セットにおいて、SANはF1スコア46.14を達成し、V-Netを上回り、同ベンチマークで新たな最先端性能を記録した。
  • SQuADデータセットでは、リーダーボードで競争力ある結果を示し、強化学習を必要とせずとも優れた一般化性能を示した。
  • 固定ステップのメモリネットワークおよび動的ステップのReasoNetと比較して、SANはより優れた頑健性と正確性を示した。
  • 確率的ドロップアウトと予測平均化の適用により、ステップバイアスが顕著に低減され、推論時のモデル安定性が向上した。
  • SANは adversarial SQuAD においても優れた性能を示し、摂動を加えられた入力に対しても頑健性が向上していることを示した。
  • この手法はシンプルで効果的であり、標準的なバックプロパゲーションと互換性があるため、強化学習ベースの代替手法よりも実装および訓練が容易である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。