QUICK REVIEW

[論文レビュー] DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications

Wei He, Kai Liu|arXiv (Cornell University)|Nov 14, 2017

Topic Modeling参考文献 19被引用数 51

ひとこと要約

DuReader は Baidu 検索ログと Zhidao に基づく大規模な実世界の中国語 MRC データセットを導入し、多様な質問タイプを提供し、ヒューマンのパフォーマンスとの差を示すベースライン結果を提示します。

ABSTRACT

This paper introduces DuReader, a new large-scale, open-domain Chinese ma- chine reading comprehension (MRC) dataset, designed to address real-world MRC. DuReader has three advantages over previous MRC datasets: (1) data sources: questions and documents are based on Baidu Search and Baidu Zhidao; answers are manually generated. (2) question types: it provides rich annotations for more question types, especially yes-no and opinion questions, that leaves more opportunity for the research community. (3) scale: it contains 200K questions, 420K answers and 1M documents; it is the largest Chinese MRC dataset so far. Experiments show that human performance is well above current state-of-the-art baseline systems, leaving plenty of room for the community to make improvements. To help the community make these improvements, both DuReader and baseline systems have been posted online. We also organize a shared competition to encourage the exploration of more models. Since the release of the task, there are significant improvements over the baselines.

研究の動機と目的

Baidu Search および Baidu Zhidao から収集した質問と文書を用いて、実世界の MRC の課題に対処する。
YesNo 質問や意見質問を含む豊富な質問タイプの注釈を提供する。
実践的な MRC シナリオを反映するため、200k の質問、1M の文書、420k+ の回答へと拡大する。

提案手法

クラスファイア支援サンプリングパイプラインを介して検索ログから質問を収集する。
Baidu 検索および Baidu Zhidao から文書を組み立て、段落レベルの推論のために全文を保持する。
質問を六種類（Entity, Description, YesNo）と二つの側面（Fact, Opinion）で注釈付けする。
関連文書全体から要約とサポート文を収集してクラウドソースで回答を作成する。
二段階の段落選択と回答スパン手順を用いたベースライン MRC モデル（Match-LSTM, BiDAF）で評価する。
YesNo 質問について意見に留意した評価を提案し、生成回答を意見ラベル（Yes/No/Depends）と一致させる。

実験結果

リサーチクエスチョン

RQ1検索ログと CQA プラットフォームから得られた実世界のデータに対して MRC はどの程度機能するか。
RQ2六つの質問タイプ（Entity, Description, YesNo）を Fact/Opinion 分類で扱えるか。
RQ3全文書と単一段落の使用が MRC の性能に及ぼす影響はどの程度か。
RQ4長い複数文書入力に対する現在のスパンベースMRCモデルの有効性はどれくらいか。
RQ5YesNo 質問の意見対応評価を導入した場合、どのような改善が生じるか。

主な発見

DuReader には 200k 問題、1M 文書、および 420k を超える人間要約回答が含まれており、当時としては最大の中国語 MRC データセットであった。
段落選択を伴うベースラインモデル（Match-LSTM, BiDAF）は段落ベースのベースラインを上回るが、まだ人間のパフォーマンスには及ばない。
Gold-paragraph 評価はモデル性能を大幅に向上させ、効果的な段落選択の重要性を強調する。
YesNo および意見質問は説明質問よりモデルにとって難しく、Baido Search 対 Baidu Zhidao ソース間でモデルの性能が異なる。
意見対応評価スキームは、回答を明示的な意見ラベル（Yes/No/Depends）と組み合わせることで評価を改善する。
ヒトのパフォーマンスは現行モデルよりなお大幅に高く、手法的進歩の余地が大きいことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。