[論文レビュー] Option Comparison Network for Multiple-choice Reading Comprehension
本論文は、各選択肢をスキマー(BERT-based)でエンコードし、語彙レベルで選択肢を比較して相関を抽出する option comparison network (OCN) を提案する。これにより MCRC の RACE における性能を改善し、Amazon Mechanical Turk のパフォーマンスを上回る。
Multiple-choice reading comprehension (MCRC) is the task of selecting the correct answer from multiple options given a question and an article. Existing MCRC models typically either read each option independently or compute a fixed-length representation for each option before comparing them. However, humans typically compare the options at multiple-granularity level before reading the article in detail to make reasoning more efficient. Mimicking humans, we propose an option comparison network (OCN) for MCRC which compares options at word-level to better identify their correlations to help reasoning. Specially, each option is encoded into a vector sequence using a skimmer to retain fine-grained information as much as possible. An attention mechanism is leveraged to compare these sequences vector-by-vector to identify more subtle correlations between options, which is potentially valuable for reasoning. Experimental results on the human English exam MCRC dataset RACE show that our model outperforms existing methods significantly. Moreover, it is also the first model that surpasses Amazon Mechanical Turker performance on the whole dataset.
研究の動機と目的
- 人間のような戦略として、記事を読む前に選択肢を比較することを動機づけ、MCRC の推論を向上させる。
提案手法
- 各選択肢を article と question とともに BERT-based スキマーでエンコードして選択肢特徴を生成する。
- 選択肢表現間のアテンションを介して語彙レベルの相関を計算し、対の相関と集合的相関を収集する。
- 抽出された選択肢相関を共注意と自己注意を通じて再読した記事に適用し、完全情報の選択肢表現を得る。
- 最終の選択肢表現をプーリングし、選択肢スコアに対して softmax を適用して正しい選択肢を予測する。
- エンドツーエンド最適化のためにクロスエントロピー損失と L2 正則化を用いて訓練する。
実験結果
リサーチクエスチョン
- RQ1語彙レベルの選択肢比較は、固定長または独立した選択肢表現よりも MCRC の性能を向上させるか。
- RQ2記事を再読する際に選択肢間の相関は推論に有意義な影響を与えるか。
- RQ3このようなモデルは RACE で人間のパフォーマンスにどれくらい近づくことができ、Amazon Mechanical Turk の品質を上回ることができるか。
主な発見
| モデル | RACE-M | RACE-H | RACE |
|---|---|---|---|
| OCN BASE | 71.6 | 64.8 | 66.8 |
| OCN LARGE | 76.7 | 69.6 | 71.7 |
| Amazon Mechanical Turker | 85.1 | 69.4 | 73.3 |
| Human Ceiling Performance | 95.4 | 94.2 | 94.5 |
- BERT-based スキマーを用いた OCN が RACE のベースラインに対して強い利得を達成。
- OCN LARGE は full RACE データセットで Amazon Mechanical Turk を上回り、RACE-H サブセットで顕著な利得を示す。
- アブレーションにより、選択肢比較を削除するか non-BERT 埋め込みを使用すると性能が大幅に低下することが示され、選択肢間相関モデリングと事前学習表現の重要性が強調された。
- モデルは人間の ceiling パフォーマンスを下回り、複雑な推論タスクには改善の余地があることを示す。
- 事前学習された文脈化表現(BERT/GPT)は、非事前学習モデルと比較して性能を大幅に向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。