QUICK REVIEW

[論文レビュー] Retrospective Reader for Machine Reading Comprehension

Zhuosheng Zhang, Junjie Yang|arXiv (Cornell University)|Jan 27, 2020

Topic Modeling被引用数 22

ひとこと要約

本稿では、初めに初期判断のための粗い読解を実行し、その後に検証のための詳細な読解を行うことで人間の読解を模倣する二段階の機械読解モデル、Retrospective Reader (Retro-Reader) を提案する。SQuAD2.0 および NewsQA において、未回答質問の検出を顕著に改善することで、統計的に有意な優位性を示す最先端の性能を達成した。

ABSTRACT

Machine reading comprehension (MRC) is an AI challenge that requires machine to determine the correct answers to questions based on a given passage. MRC systems must not only answer question when necessary but also distinguish when no answer is available according to the given passage and then tactfully abstain from answering. When unanswerable questions are involved in the MRC task, an essential verification module called verifier is especially required in addition to the encoder, though the latest practice on MRC modeling still most benefits from adopting well pre-trained language models as the encoder block by only focusing on the "reading". This paper devotes itself to exploring better verifier design for the MRC task with unanswerable questions. Inspired by how humans solve reading comprehension questions, we proposed a retrospective reader (Retro-Reader) that integrates two stages of reading and verification strategies: 1) sketchy reading that briefly investigates the overall interactions of passage and question, and yield an initial judgment; 2) intensive reading that verifies the answer and gives the final prediction. The proposed reader is evaluated on two benchmark MRC challenge datasets SQuAD2.0 and NewsQA, achieving new state-of-the-art results. Significance tests show that our model is significantly better than the strong ELECTRA and ALBERT baselines. A series of analysis is also conducted to interpret the effectiveness of the proposed reader.

研究の動機と目的

文章に答えがない場合に回答を控える必要がある機械読解における未回答質問の検出の課題に対処すること。
強力な事前学習済み言語モデルをエンコーダーとして広く使用しているにもかかわらず、MRC システムにおける検証者設計が十分に検討されていないという点を改善すること。
実世界の MRC 応用におけるモデルの頑健性と正確性を向上させる、より効果的な回答検証メカニズムを開発すること。
人間の読解戦略（粗い読解と詳細な読解）を神経ネットワークアーキテクチャに形式化することで、MRC のパフォーマンスを向上させること。

提案手法

モデルは二段階の読解戦略を採用する：まず、粗い読解モジュールが短時間で文章と質問の関係を分析し、初期の回答可能性判断を生成する。
次に、詳細な読解モジュールが、洗練されたアテンションメカニズムを用いて再び文章と質問を検討することで、候補となる回答を検証する。
粗い読解モジュールと詳細な読解モジュールは、並列に配置されたトランスフォーマーに基づくエンコーダーとして実装され、それぞれ異なる学習目的を持つ：一方はスパン予測、他方は回答可能性分類。
最終的な予測は、両モジュールの出力を組み合わせることで行われ、詳細な読解者が粗い読解者の初期意思決定を精錬する。
アーキテクチャは、タスク固有のヘッド（回答スパン予測および回答可能性検証用）を備えた事前学習済み言語モデル（例：ALBERT）をバックボーンエンコーダーとして使用する。
検証者部は、回答スパンの正確性と回答可能性検出の両方を同時に最適化する二重目的損失関数を用いてエンドツーエンドで学習される。

実験結果

リサーチクエスチョン

RQ1粗い読解と詳細な読解という二段階の読解戦略は、特に未回答質問に対して機械読解のパフォーマンスを向上させることができるか？
RQ2強力な事前学習済み言語モデルを用いた MRC モデルにおいて、専用の検証モジュールを統合すると性能にどのような影響を与えるか？
RQ3人間の読解パターンを模倣したアプローチは、標準的なパイプライン型または連結ベースの検証者設計と比較して、より優れた一般化性能と頑健性を示すか？
RQ4提案手法は、回答可能な質問のパフォーマンスを損なわせることなく、回答可能性検出をどの程度向上させるか？

主な発見

Retrospective Reader は SQuAD2.0 で最先端の結果を達成し、正確一致（EM）が 87.8%、F1 スコアが 90.9% に達した。これは強力な ALBERT ベースラインを上回った。
NewsQA データセットでは、EM が 57.1%、F1 が 67.5% を達成し、強力なベースラインに対して一貫した改善を示した。
統計的有意性検定により、強力なベースラインとのパフォーマンス向上が有意であることが確認され、本手法の頑健性と信頼性が裏付けられた。
同等のパrameter数を持つ二つの同一ベースラインモデルのアンサンブルよりも性能が優れており、性能向上はモデル容量の向上ではなく、アーキテクチャ的革新に起因することを証明した。
未回答質問における幻覚の低減が効果的に実現された：ALBERT ベースラインは誤って「グレートレイクス・メガロポリスとニューヨーク周辺のメガロポリス」を答えと予測したが、Retro-Reader は正しく「答えなし」と予測した。
アブレーションスタディの結果、回答検証がパフォーマンス向上に顕著な貢献をしていることが示されたが、単に層やパrameterを増やすだけでは最小限の改善にとどまった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。