[論文レビュー] DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs
DROP は、段落の内容に対して離散的な数値・論理推論を要する複雑な読解ベンチマークである。最先端モデルは人間を著しく下回り、ニューラル-シンボリック手法を動機づける。
Reading comprehension has recently seen rapid progress, with systems matching humans on the most popular datasets for the task. However, a large body of work has highlighted the brittleness of these systems, showing that there is much work left to be done. We introduce a new English reading comprehension benchmark, DROP, which requires Discrete Reasoning Over the content of Paragraphs. In this crowdsourced, adversarially-created, 96k-question benchmark, a system must resolve references in a question, perhaps to multiple input positions, and perform discrete operations over them (such as addition, counting, or sorting). These operations require a much more comprehensive understanding of the content of paragraphs than what was necessary for prior datasets. We apply state-of-the-art methods from both the reading comprehension and semantic parsing literature on this dataset and show that the best systems only achieve 32.7% F1 on our generalized accuracy metric, while expert human performance is 96.0%. We additionally present a new model that combines reading comprehension methods with simple numerical reasoning to achieve 47.0% F1.
研究の動機と目的
- DROP を紹介する、離散的推論を段落内容で評価する crowdsourced ベンチマーク。
- ニューラル表現と離散推論を組み合わせたモデルへ向けての推進。
- データセットの特性を特徴づけ、数値性に焦点を当てたタスクで既存の QA 系を挑戦させる。
提案手法
- Wikipedia のパッセージから 96.6k の質問をクラウドソースで作成し、離散推論を要求するよう対立的ターゲティングを適用。
- 述語-引数構造の表形式表現と規則駆動の論理形式言語を用いたセマンティック・パーシングのベースライン。
- 非スパン回答を評価するために SQuAD 風の読解ベースライン(BiDAF, QANet, QANet+ELMo, BERT)を適応。
- NAQANet の導入、数値に対する数え上げと単純な算術を拡張した数値認識QAモデル。
- 正解の回答を生成する実行を排除することで弱教師あり訓練を実現し、ニューラル-シンボリック統合を可能にする。
実験結果
リサーチクエスチョン
- RQ1段落レベルの QA で必要な離散的推論は、既存の QA データセットと比較してどれくらい難しいか。
- RQ2ニューラルモデルを数値推論の象徴的要素と組み合わせ、 passages での数え上げや算術を扱えるか。
- RQ3DROP の段落ベースの質問に適用したセマンティック・パーシング手法の主な課題は何か。
- RQ4DROP における人間の専門家と現行モデルとの性能差と、どの現象が誤りを生むか。
主な発見
- 最良のベースライン(BERT)は DROP のテストで 32.70 F1、人間の 96.42 F1 には大きく及ばず、データセットの難易度を示す。
- NAQANet の完全な算術能力はテストセットで 47.01 F1、従来のベースラインより大幅に改善したが、なお人間の性能には及ばない。
- セマンティック・パーシングのベースラインは情報抽出の品質と弱教師あり訓練に依存するため性能が低く、正当な論理形式を出す質問の一部のみ。
- 数え上げと算術の質問がモデルのエラーの大部分を占め、NAQANet のエラー分析では算術が 51% の要因。
- 数値推論(Add/Sub)を統合した完全モデルは、検討された手法の中で最も大きな改善を示した。
- ヒューリスティックなベースラインはほぼゼロに近く、単純なトリックで悪用されるようなデータセットバイアスは限定的。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。