Skip to main content
QUICK REVIEW

[論文レビュー] Reinforced Mnemonic Reader for Machine Reading Comprehension

Minghao Hu, Yuxing Peng|arXiv (Cornell University)|May 8, 2017
Topic Modeling参考文献 39被引用数 41
ひとこと要約

本稿では、注意メカニズムの冗長性と欠落を低減する再注意メカニズムを用いて、機械読解のためのニューラルネットワークアーキテクチャ「強化記憶リーダー」を提案する。さらに、訓練における収束抑制を克服するための動的・臨界強化学習を導入している。モデルはSQuADで最先端の性能を達成し、開発セットでは82.3%のEMと88.5%のF1を記録。敵対的SQuADデータセットでは、先行手法を6%以上上回っている。

ABSTRACT

In this paper, we introduce the Reinforced Mnemonic Reader for machine reading comprehension tasks, which enhances previous attentive readers in two aspects. First, a reattention mechanism is proposed to refine current attentions by directly accessing to past attentions that are temporally memorized in a multi-round alignment architecture, so as to avoid the problems of attention redundancy and attention deficiency. Second, a new optimization approach, called dynamic-critical reinforcement learning, is introduced to extend the standard supervised method. It always encourages to predict a more acceptable answer so as to address the convergence suppression problem occurred in traditional reinforcement learning algorithms. Extensive experiments on the Stanford Question Answering Dataset (SQuAD) show that our model achieves state-of-the-art results. Meanwhile, our model outperforms previous systems by over 6% in terms of both Exact Match and F1 metrics on two adversarial SQuAD datasets.

研究の動機と目的

  • 機械読解で用いられるマルチラウンド注意メカニズムにおける注意の冗長性と欠落を解消すること。
  • F1最適化のための強化学習ベースの訓練における収束抑制問題を解決すること。
  • 記憶された過去の注意状態を用いて注意分布を精緻化することで、回答スパンの予測精度を向上させること。
  • 報酬とベースラインを動的に選択する安定的かつ効果的な訓練手法を開発し、報酬正規化の問題を回避すること。
  • 標準的および敵対的SQuADベンチマークで最先端の性能を達成すること。

提案手法

  • 時間的に記憶された過去の注意分布を用いて現在の注意を精緻化する再注意メカニズムを導入。これにより注目度が向上し、冗長性が低減される。
  • 現在の注意分布と過去の注意分布の類似度を計算し、重複領域に集中するか、新しい領域を探索するかをガイドする。
  • 動的・臨界強化学習(DCRL)は、ランダム推論とグリーディ推論のうちスコアが高い方を報酬として選択し、正規化された正の報酬を保証する。
  • DCRLはランダム推論とグリーディ推論の2つのサンプリング戦略を用い、スコアが高い出力を報酬、低い出力をベースラインとして設定することで、収束抑制を回避する。
  • 再注意とDCRLを統合したエンドツーエンドのニューラルアーキテクチャ「強化記憶リーダー」を構築。教師あり学習と強化学習を組み合わせたハイブリッド目的関数で訓練する。
  • 各ブロックが質問に依存する注意と、前段階からの再注意を用いて文脈表現を段階的に精緻化するマルチラウンドアライメント機構を採用する。

実験結果

リサーチクエスチョン

  • RQ1過去の注意分布を利用した再注意メカニズムは、マルチラウンドMRCモデルにおける注意の冗長性と欠落を低減できるか?
  • RQ2動的・臨界強化学習は、MRCにおけるF1最適化のための訓練における収束抑制問題を効果的に緩和できるか?
  • RQ3提案手法は、標準的および敵対的SQuADベンチマークで最先端の性能を達成できるか?
  • RQ4再注意メカニズムは、注意分布の多様性を向上させるとともに、正解の回答スパンと整合性を高められるか?
  • RQ5DCRLは、標準的な自己臨界シーケンストレーニング(SCST)と比較して、予測精度をどの程度向上させるか?

主な発見

  • アンサンブルを用いたSQuAD開発セットにおいて、正確一致(EM)スコア82.3%、F1スコア88.5%を達成し、最先端の性能を示した。
  • 敵対的SQuADデータセットAddSentおよびAddOneSentでは、EMおよびF1両方の指標で、既存手法を6%以上上回った。
  • 再注意メカニズムにより注意の冗長性が低減された。E1からE2にかけて隣接する注意ブロック間のKLダイバージェンスが25%増加(0.695 → 0.866)した。
  • 再注意メカニズムにより注意の欠落も低減された。E2における予測注意分布とアンサンブルベースの正解注意分布のKLダイバージェンスは、0.650から0.568に低下した。
  • 動的・臨界強化学習は収束抑制を効果的に回避し、特にSCSTが正しくスパンを特定できない場合に、回答境界の予測がより正確になった。
  • アブレーションスタディにより、再注意とDCRLの両方が性能向上に顕著に寄与していることが確認され、フルモデルは変種と比較してEMおよびF1で1.5~2.0ポイント優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。