[論文レビュー] RACE: Large-scale ReAding Comprehension Dataset From Examinations
RACEは、中国の中高生向け英語試験から作られた大規模な人手作成の読解データセットを導入し、推論重視の問題と幅広いトピックの網羅を強調して機械の読解能力を挑戦・評価します。基準値と人間の天井を提供し、最先端モデルと人間の性能の間に顕著なギャップがあることを示します。
We present RACE, a new dataset for benchmark evaluation of methods in the reading comprehension task. Collected from the English exams for middle and high school Chinese students in the age range between 12 to 18, RACE consists of near 28,000 passages and near 100,000 questions generated by human experts (English instructors), and covers a variety of topics which are carefully designed for evaluating the students' ability in understanding and reasoning. In particular, the proportion of questions that requires reasoning is much larger in RACE than that in other benchmark datasets for reading comprehension, and there is a significant gap between the performance of the state-of-the-art models (43%) and the ceiling human performance (95%). We hope this new dataset can serve as a valuable resource for research and evaluation in machine comprehension. The dataset is freely available at http://www.cs.cmu.edu/~glai1/data/race/ and the code is available at https://github.com/qizhex/RACE_AR_baselines.
研究の動機と目的
- 既存のベンチマークを超えた、より挑戦的で多様な読解データセットの必要性を動機づける。
- 推論能力を評価するため、12–18歳向けの英語試験に基づく大規模で人手作成のQAデータセットを作成する。
- 広範なトピック/スタイルの網羅と、パッセージの一部を直接抜き出さない非スパン型の回答オプションを確保し、より深い理解を要求する。
提案手法
- 中国の中学・高校レベル(12–18歳)の英語試験の本文と問題を収集する。
- 自己完結でない問題、画像ベースの回答、形式の不整合を除去するためデータをフィルタリング・クリーニングする。
- 人手作成の問題と、パッセージからの抜粋でない選択肢を含む4択の回答を使用する。
- データをRACE-M(中等学校)とRACE-H(高校校)に分割し、train/dev/testセットを設定する。
- Sliding Window、Stanford Attentive Reader、Gated-Attention Readerなどのベースラインを評価し、SGD学習とGlove埋め込みを使用する。
- クラウドワーカーによるラベリングと質問の妥当性の手動検証を通じて人間の天井推定を提供する。
実験結果
リサーチクエスチョン
- RQ1RACEに要求される推論タイプの分布と難易度は、既存のQAデータセットと比較してどうか。
- RQ2この試験由来データセットに対する最先端の機械読解モデルの人間に対する性能と比較した成績はどうか。
- RQ3RACEのより広いドメイン/スタイルの網羅と非スパン型の質問は、複数文および文間推論の必要性を高めるか。
- RQ4RACE内の推論細分(詳細、全体像、要約、態度分析、世界知識)の特徴と比率はどうか。
主な発見
- RACEには27,933のパッセージと97,687の質問が含まれており、表層的な語の一致を超える推論を必要とする問題がかなりの割合で存在する。
- 人間の天井性能は高く(約95%)、一方で最先端モデルは大幅に遅れており(例:Stanford AR、GAはRACEでおよそ43–44%)、改善の余地が大きいことを示している。
- 推論はRACEの主要な課題であり、CNN/Daily Mail、SQUAD、NEWSQAよりも一文推論および複数文推論の割合が高い。
- RACEの新規推論細分であるパッセージ要約と態度分析は、従来の大規模データセットでは十分に探究されていない。
- RACEはニュース、物語、広告、伝記、哲学など、広範なドメイン/スタイルの網羅を示しており、一般的な読解能力のベンチマークとして多用途なものとなっている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。