[論文レビュー] MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge
MCScript は、常識的スクリプト知識を用いて回答する必要がある大規模な物語と質問のコーパスを提示し、日常シナリオと SemEval 2018 への参加を前提とした機械読解の評価を可能にします。質問の約 27.4% はスクリプトベースの推論を必要とします。
We introduce a large dataset of narrative texts and questions about these texts, intended to be used in a machine comprehension task that requires reasoning using commonsense knowledge. Our dataset complements similar datasets in that we focus on stories about everyday activities, such as going to the movies or working in the garden, and that the questions require commonsense knowledge, or more specifically, script knowledge, to be answered. We show that our mode of data collection via crowdsourcing results in a substantial amount of such inference questions. The dataset forms the basis of a shared task on commonsense and script knowledge organized at SemEval 2018 and provides challenging test cases for the broader natural language understanding community.
研究の動機と目的
- explicit commonsense と script knowledge を用いた機械読解の評価を促進する
- 大規模でクラウドソーシングされた物語とシナリオベースの質問データセットを作成する
- 検証とフィルタリングによってデータの品質を高める
- 共通知識タスク(SemEval 2018)に適した外部評価フレームワークを提供する
- 質問への回答におけるスクリプト知識の役割を数量化する
提案手法
- スクリプトベースの推論を促進するため、テキスト固有の質問よりもシナリオ中心の質問を収集する
- 約 2,100 テキストに対して 110 のシナリオの子ども向け解説物語を作成する
- カテゴリ(テキストベース、スクリプトベース、不明、適合しない)付きで 14,074 問題をクラウドソースし、各質問につき 3–5 の選択肢を用意する
- 物語の後処理として語彙の正規化を行い、誤字の修正を実施し、代名詞を they/theirs に正規化する
- テキスト-質問 ペアにつき 1 つの正解と 1 つの不正解の回答を多数決と語彙正規化で選択する
- データを訓練用(9,731 問題、1,470 テキスト)、開発用(1,411 問題、219 テキスト)、テスト用(2,797 問題、430 テキスト)に分割し、テスト用の5つのシナリオを保持する
実験結果
リサーチクエスチョン
- RQ1MCScript データセットのうち、回答に常識的スクリプト知識がどれくらい必要か?
- RQ2ベースラインモデルとニューラルモデルは、テキストベースの質問とスクリプトベースの質問でどの程度性能が異なるか?
- RQ3質問のタイプの分布はどのようで、それが性能にどう影響するか?
- RQ4スクリプト知識を外部読解框架で効果的に評価できるか?
主な発見
| Model | Text | CS | Total |
|---|---|---|---|
| Chance | 50.0 | 50.0 | 50.0 |
| Word Overlap | 41.8 | 59.0 | 54.4 |
| Sliding Window | 55.7 | 53.1 | 55.0 |
| Bilinear Model | 69.8 | 71.4 | 70.2 |
| Attentive Reader | 70.9 | 75.2 | 72.0 |
| Human Performance | — | — | 98.2 |
- 最終データセットは 13,939 問題から成り、そのうち 3,827 問題(27.4%)が常識知識を必要とする。
- 人間アノテータはすべてのケースで金標準と一致する割合が 98.2% に達し、高い信頼性を示す。
- 訓練/開発/テストの分割は以下のとおり:訓練 9,731 問題、1,470 テキスト(訓練)、開発 1,411 問題、219 テキスト(開発)、テスト 2,797 問題、430 テキスト(テスト)。
- ベースラインの語彙重複とスライディングウィンドウモデルはニューラルモデルより劣り、アテンティブ・リーダーは二次的には bilinear モデルを上回る(総計: 72.0% vs 70.2%)。
- テキストベースの質問では、アテンティブ・リーダーは 70.9%(テキスト)、75.2%(常識)で、総計 72.0%を達成。テキストのみの質問では、いくつかのベースラインで結果が低い。
- モデル全体を通じて yes/no 問題のパフォーマンスが特に低く、表面的なテキストを超えたより高度な推論の必要性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。