QUICK REVIEW

[論文レビュー] ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension

Sheng Zhang, Xiaodong Liu|arXiv (Cornell University)|Oct 30, 2018

Topic Modeling参考文献 30被引用数 215

ひとこと要約

本論文はReCoRDを紹介する。大規模なMRCデータセットで常識推論を必要とし、人間が最先端モデルを著しく上回ることを示し、埋めるべきギャップを浮き彫りにする。

ABSTRACT

We present a large-scale dataset, ReCoRD, for machine reading comprehension requiring commonsense reasoning. Experiments on this dataset demonstrate that the performance of state-of-the-art MRC systems fall far behind human performance. ReCoRD represents a challenge for future research to bridge the gap between human and machine commonsense reading comprehension. ReCoRD is available at http://nlp.jhu.edu/record.

研究の動機と目的

表層テキストパターンを超える広範な常識推論を必要とする読解の必要性を動機づける。
ニュース記事から自動的に大規模なベンチマーク（ passages, クローズスタイルのクエリ, 答え）を生成して常識推論を評価する。
質問が非自明な推論を要求し、あいまましくないことを確保するためにフィルタリングと人間検証を適用する。
機械と人間のギャップを定量化するベースラインと人間の性能を提供する。

提案手法

CNN/Daily Mailのニュース記事から自動的に770kの（ passages, クエリ, 答え）トリプルを生成する。
前例となる指示を引用する文の中で名前付きエンティティをXに置換してクローズスタイルのクエリを作成する。
強力なMRCモデル（SAN）を用いて簡単なトリプルをフィルタリングして244kの難しいトリプルを保つ。
クラウドソースで人間の検証を行いあいまいさを削り、正解を保証し、train/dev/testの分割で120,730のクエリセットを得る。
DocQA with/without ELMo, QANet, ASReader, SAN, 言語モデルを含む複数のMRCモデルと人間のパフォーマンスを、正解一致とF1指標で評価する。

実験結果

リサーチクエスチョン

RQ1現在のMRCモデルは常識推論を必要とするデータセットでどう性能を出すか？
RQ2ReCoRDにおける人間と機械の標準MRCアーキテクチャ間の性能ギャップはどの程度か？
RQ3ReCoRDで最も多い常識推論のタイプは何で、モデルはそれらでどの程度健闘しているか？
RQ4候補エンティティのガイダンス（クローズ設定）はモデルに有効か、データ構築は難易度にどう影響するか？

主な発見

人間はテストセットでEMが91.31、F1が91.69、最高の自動手法（DocQA with ELMo）はテストセットでF1が46.65、EMが45.44。
SANを用いたフィルタリングは多くのクエリがモデル間で難しいことを確認し、人間より著しく低いスコアを示した。
無監督言語モデルはReCoRDでランダム推測と同程度の性能を示し、ドメイン知識のギャップを示唆する。
候補エンティティからの回答を引き出す（クローズ設定）は、モデルがエンティティ候補を活用すれば潜在的な利益をもたらす（約6%のOOC削減）。
100のサンプリングクエリ全体で75%が常識推論を必要とし、主なタイプは概念知識と因果/素朴心理学的推論。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。