Skip to main content
QUICK REVIEW

[論文レビュー] FusionNet: Fusing via Fully-Aware Attention with Application to Machine Comprehension

Hsin-Yuan Huang, Chenguang Zhu|arXiv (Cornell University)|Nov 16, 2017
Topic Modeling被引用数 86
ひとこと要約

FusionNet は History-of-word に基づく完全に意識した注意機構と文脈と質問への多層統合を提案し、当時の SQuAD および敵対データセットで最先端の成果を達成。

ABSTRACT

This paper introduces a new neural structure called FusionNet, which extends existing attention approaches from three perspectives. First, it puts forward a novel concept of "history of word" to characterize attention information from the lowest word-level embedding up to the highest semantic-level representation. Second, it introduces an improved attention scoring function that better utilizes the "history of word" concept. Third, it proposes a fully-aware multi-level attention mechanism to capture the complete information in one text (such as a question) and exploit it in its counterpart (such as context or passage) layer by layer. We apply FusionNet to the Stanford Question Answering Dataset (SQuAD) and it achieves the first position for both single and ensemble model on the official SQuAD leaderboard at the time of writing (Oct. 4th, 2017). Meanwhile, we verify the generalization of FusionNet with two adversarial SQuAD datasets and it sets up the new state-of-the-art on both datasets: on AddSent, FusionNet increases the best F1 metric from 46.6% to 51.4%; on AddOneSent, FusionNet boosts the best F1 metric from 56.0% to 60.7%.

研究の動機と目的

  • 単語埋め込みから高レベルの特徴まで、全ての表現レベルにまたがる情報を活用して機械読解を改善する動機づけ。
  • history-of-word を用いて語間の相互作用を測定する軽量な fully-aware attention 機構を開発する。
  • 層ごとに質問と文脈の情報を活用する完全に意識された多層融合アーキテクチャを提案し検証する。
  • SQuAD と adversarial データセット AddSent および AddOneSent で最先端の性能を示す。

提案手法

  • history-of-word (HoW) を、層を横断する単語のすべての表現の連結として導入する。
  • 対称的で非線形性を強化した S(HoW_Ai, HoW_Bj) を、対角線 D を用いた分解 U^T D U で定義し、訓練を安定化させる。
  • Fully-Aware Multi-Level Fusion を実装する:Q から C への語レベルおよび高次レベルの特徴を別個のアテンションで融合する;複数レベルで C から Q へ融合する; HoW を用いた自己強化融合を C に適用する。
  • BiLSTM ベースのリーディングと多層融合を用いて文脈理解ベクトル U_C と質問理解ベクトル U_Q を生成し、これらのベクトルに対するアテンションを通じて SQuAD で開始位置と終了位置を予測する。
  • SQuAD および敵対的 SQuAD データセット(AddSent, AddOneSent)で評価し、同時代のモデルと比較する。

実験結果

リサーチクエスチョン

  • RQ1全表現レベルにわたって捕捉された history-of-word は MRC における注意と融合を改善できるか?
  • RQ2対称的で非線形性を強化した完全に意識された注意は訓練の安定性と性能向上をもたらすか?
  • RQ3多層で完全に意識された融合は、単一層やナイーブな融合戦略より MRC で上回るか?
  • RQ4FusionNet は標準的および敵対的な MRC ベンチマークでどのような成績を示すか?

主な発見

  • FusionNet は当時の SQuAD で単独・アンサンブル構成のどちらでもトップの結果を達成(EM 78.8%、F1 85.9% はアンサンブル)。
  • 敵対データセット AddSent および AddOneSent では、最大の F1 をそれぞれ 46.6% から 51.4%、56.0% から 60.7% に向上。
  • history-of-word を含む完全に意識された多層融合は、完全には意識されていないまたは単一層アプローチより一貫して EM/F1 を改善。
  • 対称的な非線形性を用いたアテンションは、アブレーション研究で加法的、乗法的、スケール済み variante を上回る。
  • モデルは敵対的入力への強い一般化能力を示し、言語理解能力の向上を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。