QUICK REVIEW

[論文レビュー] DCN+: Mixed Objective and Deep Residual Coattention for Question Answering

Caiming Xiong, Victor W. Zhong|arXiv (Cornell University)|Oct 31, 2017

Topic Modeling参考文献 23被引用数 86

ひとこと要約

DCN+ は深層残差共注意エンコーダとクロスエントロピー損失と自己批評強化学習を混合する目的を組み合わせ、SQuAD で最先端の EM と F1 を達成。モデルは長い質問への対応と全体的な QA パフォーマンスを改善。

ABSTRACT

Traditional models for question answering optimize using cross entropy loss, which encourages exact answers at the cost of penalizing nearby or overlapping answers that are sometimes equally accurate. We propose a mixed objective that combines cross entropy loss with self-critical policy learning. The objective uses rewards derived from word overlap to solve the misalignment between evaluation metric and optimization objective. In addition to the mixed objective, we improve dynamic coattention networks (DCN) with a deep residual coattention encoder that is inspired by recent work in deep self-attention and residual networks. Our proposals improve model performance across question types and input lengths, especially for long questions that requires the ability to capture long-term dependencies. On the Stanford Question Answering Dataset, our model achieves state-of-the-art results with 75.1% exact match accuracy and 83.1% F1, while the ensemble obtains 78.9% exact match accuracy and 86.0% F1.

研究の動機と目的

QA モデルにおける評価指標（テキストの重なり）と訓練目的（厳密なスパン）のギャップを埋める。
残差接続を深めた共注意エンコーダで QA の表現学習を強化する。
開始位置・終了位置のクロスエントロピー損失と Ground-Truth 回答との単語重複に基づく報酬を組み合わせた混合目的を導入する。
長さの異なる質問を含むさまざまな質問タイプでの性能向上を示し、SQuAD での長い質問に対する効果を特に検証する。

提案手法

DCN を拡張して深層残差共注意エンコーダを導入し、共注意層を積み重ね、残差接続で統合する。
二層の共注意を計算し、最終エンコード前に多様な表現（E1D, E2D, S1D, S2D, C1D, C2D）を連結する。
開始位置/終了位置に対するクロスエントロピー損失と、F1 単語重なりに基づく強化学習報酬（自己批評ベースライン）を組み合わせた混合目的を導入する。
CE 損失と RL 損失をブレンドするタスク依存的不確実性ウェイトを用いたマルチタスク学習を使用する。
訓練は ADAM と標準的な QA 前処理で行い、PyTorch 実装、GloVe+CoVe+文字 n-gram 埋め込みを使用する。
SQuAD 上で評価を行い、深層残差共注意と混合目的の寄与を検証するアブレーションを実施する。

実験結果

リサーチクエスチョン

RQ1深層残差共注意エンコーダは、特に長い質問に対して QA パフォーマンスにどのような影響を与えるか？
RQ2クロスエントロピーと自己批評強化学習を組み合わせることで、最適化指標と評価指標の整合性は改善されるか？
RQ3深層残差共注意と混合目的の相対的寄与は全体の QA 力にどの程度寄与するか？
RQ4提案手法の DCN+ は、SQuAD において質問タイプや長さに関係なく DCN のベースラインを上回るか？

主な発見

モデル	EM 開発用	F1 開発用	EM テスト	F1 テスト	EM アンサンブル	F1 アンサンブル
DCN+ (ours)	74.5%	83.1%	75.1%	83.1%	78.9%	86.0%
rnet	72.3%	80.6%	72.3%	80.7%	76.9%	84.0%
DCN w/ CoVe (baseline)	71.3%	79.9%	–	–	–	–
Mnemonic Reader	70.1%	79.6%	69.9%	79.2%	73.7%	81.7%
Document Reader	69.5%	78.8%	70.0%	79.0%	–	–
FastQA	70.3%	78.5%	70.8%	78.9%	–	–
ReasoNet	–	–	69.1%	78.9%	73.4%	81.8%
SEDT	67.9%	77.4%	68.5%	78.0%	73.0%	80.8%
BiDAF	67.7%	77.3%	68.0%	77.3%	73.7%	81.5%
DCN	65.4%	75.6%	66.2%	75.9%	71.6%	80.4%

DCN+ は SQuAD テストで単一モデルとして 75.1% EM と 83.1% F1 を達成；アンサンブルは 78.9% EM と 86.0% F1 に到達。
DCN+ は開発セットで CoVe を用いた DCN ベースラインより EM が 3.2 ポイント、F1 が 3.2 ポイント改善。
深層残差共注意が Ablation の中で最大の単一寄与を提供し、混合目的がそれに次ぐ。
混合目的はポリシー学習を安定化させ、自己批評ベースラインを介してクロスエントロピー損失と組み合わせると最終性能が向上する。
長い質問と高次の依存関係に対して有意な利益を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。