Skip to main content
QUICK REVIEW

[論文レビュー] Probing Prior Knowledge Needed in Challenging Chinese Machine Reading Comprehension.

Kai Sun, Dian Yu|arXiv (Cornell University)|Apr 21, 2019
Topic Modeling参考文献 47被引用数 16
ひとこと要約

本論文では、中国語としての第二言語試験から抽出された13,369件のドキュメントと19,577の質問を有する、自由形式の複数選択式中国語機械読解データセットC^3を紹介する。86.8%の質問が本文を超えた知識を要することが明らかになった。最新のモデルでさえ68.5%の正答率にとどまり、人間の性能(96.0%)と比べて大きな格差が残っており、機械読解システムにおける言語的知識、分野固有の知識、一般世界知識の統合の向上が極めて重要であることが示された。

ABSTRACT

Machine reading comprehension tasks require a machine reader to answer questions relevant to the given document. In this paper, we present the first free-form multiple-Choice Chinese machine reading Comprehension dataset (C^3), containing 13,369 documents (dialogues or more formally written mixed-genre texts) and their associated 19,577 multiple-choice free-form questions collected from Chinese-as-a-second-language examinations. We present a comprehensive analysis of the prior knowledge (i.e., linguistic, domain-specific, and general world knowledge) needed for these real-world problems. We implement rule-based and popular neural methods and find that there is still a significant performance gap between the best performing model (68.5%) and human readers (96.0%), especially on problems that require prior knowledge. We further study the effects of distractor plausibility and data augmentation based on translated relevant datasets for English on model performance. We expect C^3 to present great challenges to existing systems as answering 86.8% of questions requires both knowledge within and beyond the accompanying document, and we hope that C^3 can serve as a platform to study how to leverage various kinds of prior knowledge to better understand a given written or orally oriented text. C^3 is available at this https URL.

研究の動機と目的

  • 実際のL2試験状況を反映する包括的な中国語機械読解データセットの開発。
  • 読解質問に必要な事前知識の種類(言語的知識、分野固有の知識、一般世界知識)の分析。
  • 神経ネットワークモデルと人間の読解者との間の知識集約に依存する読解タスクにおける性能格差の評価。
  • 誘導選択肢の妥当性と英語並列データセットを用いたデータ拡張がモデル性能に与える影響の調査。

提案手法

  • C^3データセットは、本物の中国語としての第二言語試験の問題から構築され、会話と混合ジャンルの文章を含む。
  • 質問は自由形式の複数選択式であり、単純な抽出的解答を超えた洗練された理解と推論を要する。
  • ルールベースおよびニューラルモデルを実装し、データセット上の性能をベンチマーク化した。
  • 誘導選択肢の妥当性は、モデルの意思決定に与える影響を評価することで分析した。
  • ゼロショット一般化の向上を目的として、翻訳された英語MRCデータセットを用いたデータ拡張を実施した。
  • 各質問の認知的要請を特定するため、知識タイプの包括的分析を実施した。

実験結果

リサーチクエスチョン

  • RQ1中国語MRCの質問を解くために、最も頻繁に必要な事前知識の種類は、言語的知識、分野固有の知識、一般世界知識の中のどれか?
  • RQ2神経ネットワークモデルの性能は、知識集約に依存する中国語読解タスクにおいて人間の読解者と比べてどの程度異なるか?
  • RQ3誘導選択肢の妥当性が、複数選択式MRCの質問におけるモデル性能にどの程度影響を与えるか?
  • RQ4翻訳された英語MRCデータセットを用いたデータ拡張は、C^3ベンチマークにおけるゼロショット一般化性能を向上させることができるか?

主な発見

  • 最良の神経ネットワークモデルでも68.5%の正答率にとどまり、人間の96.0%と比べて顕著な格差があり、知識統合の面で大きな課題が示された。
  • C^3データセットの86.8%の質問が、与えられた文書内およびそれ以上の知識を要しており、データセットの複雑さが浮き彫りになった。
  • 誘導選択肢の妥当性を高めた際、顕著な性能低下が観察された。これはモデルが質問設計に敏感であることを示唆している。
  • 翻訳された英語データセットを用いたデータ拡張により、ゼロショット一般化性能にわずかな改善が見られたが、人間とモデルの格差は解消されなかった。
  • 分析の結果、言語的知識と世界知識が、本データセットで最も頻繁に必要な事前知識の種類であることが判明した。
  • ルールベースモデルは、特に世界知識を要する質問では神経ネットワークモデルに比べて著しく劣っており、記号的アプローチの限界が浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。