QUICK REVIEW

[論文レビュー] SDNet: Contextualized Attention-based Deep Network for Conversational Question Answering

Chenguang Zhu, Michael Zeng|arXiv (Cornell University)|Dec 10, 2018

Topic Modeling参考文献 14被引用数 118

ひとこと要約

SDNetは passage history と対話履歴に対する文脈化された相互アテンションと自己アテンションを導入し、ロックされたパラメータで層の出力を重み付き結合することでBERTを活用し、対話型QAを前進させ、CoQAで最先端を達成する。

ABSTRACT

Conversational question answering (CQA) is a novel QA task that requires understanding of dialogue context. Different from traditional single-turn machine reading comprehension (MRC) tasks, CQA includes passage comprehension, coreference resolution, and contextual understanding. In this paper, we propose an innovated contextualized attention-based deep neural network, SDNet, to fuse context into traditional MRC models. Our model leverages both inter-attention and self-attention to comprehend conversation context and extract relevant information from passage. Furthermore, we demonstrated a novel method to integrate the latest BERT contextual model. Empirical results show the effectiveness of our model, which sets the new state of the art result in CoQA leaderboard, outperforming the previous best model by 1.6% F1. Our ensemble model further improves the result by 2.7% F1.

研究の動機と目的

対話履歴と passage 理解を組み込むことにより、対話的質問応答の課題に対応する。
インターアテンションと自己アテンションを通じて文脈を融合するニューラルアーキテクチャを開発する。
固定パラメータの新規な方法でBERTの文脈埋め込みを活用し、MRCベースのQAを強化する。

提案手法

前のQ/Aラウンドを現在の質問の前に付加して、MRCフレーミングの文脈化質問を形成する。
質問からパッセージへのインターアテンションと語間の自己アテンションを用いて、文脈と問合の関係を捉える。
パラメータを固定してBERTを統合し、出力層の加重和を取り、勾配更新を行わない。
語の履歴に基づく多層アテンションを適用して、複数のBERT/RNN表現を効率的に融合する。
開始/終了確率を用いて回答スパンを生成し、GRU結合ステップで統合し、CoQAのYes/No/Unknown出力に対応する。
真のスパンやYes/No/Unknownラベルの尤度を最大化してエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1対話履歴をどのように効果的にパッセージベースのQAに組み込み、マルチターンの質問に答えるか。
RQ2インターアテンション、自己アテンション、文脈埋め込みの組み合わせがQAの性能に与える影響はどのくらいか。
RQ3BERTパラメータを固定し、層の加重和を用いる方法は下流のQAタスクを改善するか。
RQ4SDNetはこれまでの最先端モデルやベースラインと比較してCoQAでどうであるか。

主な発見

SDNetはCoQAで全体のF1が76.6%（単一モデル）を達成し、前の最先端を1.6%上回った。
SDNetのアンサンブルは全体のF1を79.3%に達成し、さらなる結果を上回った。
SDNetはCoQAのイン-domainデータで80%のF1を突破した最初のモデルである（80.7%）。
アブレーションによりBERTを除去するとF1が7.15%低下し、BERT出力の層別加重和は最後の層のみを用いる場合よりF1を1.75%向上させた。
2つの前回のQAラウンドを現在の質問に前置すると、試験した履歴長の中でピーク性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。