[論文レビュー] CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge
CommonsenseQAはConceptNetから生成された大規模な常識QAデータセットを導入し、複数のベースラインを評価し、人間が現在のモデルを大幅に上回ることを示している(最高 ~55.9% 対 ~88.9% の人間)。
When answering a question, people often draw upon their rich world knowledge in addition to the particular context. Recent work has focused primarily on answering questions given some relevant document or context, and required very little general background. To investigate question answering with prior knowledge, we present CommonsenseQA: a challenging new dataset for commonsense question answering. To capture common sense beyond associations, we extract from ConceptNet (Speer et al., 2017) multiple target concepts that have the same semantic relation to a single source concept. Crowd-workers are asked to author multiple-choice questions that mention the source concept and discriminate in turn between each of the target concepts. This encourages workers to create questions with complex semantics that often require prior knowledge. We create 12,247 questions through this procedure and demonstrate the difficulty of our task with a large number of strong baselines. Our best baseline is based on BERT-large (Devlin et al., 2018) and obtains 56% accuracy, well below human performance, which is 89%.
研究の動機と目的
- 文脈を超えた背景知識をテストするための常識質問応答データセットを導入する。
- クラウドワーカーを用いたConceptNetからの拡張可能な質問生成手法を提案する。
- 最先端のNLUモデルを評価し、機械と人間の性能のギャップを明らかにする。
提案手法
- ソース概念を選択し、関連を共有する3つのターゲット概念を選んでConceptNetから質問セットを生成する。
- クラウドワーカーはセットごとに3つの質問を書き、それぞれに1つの正解ターゲット概念を答えとし、ConceptNetからの2つの誤選択肢と自己作成の1つの誤選択肢を加える。
- 別の作業者を使って品質を検証し、正しい検証が1つ以上ある質問のみを保持する。
- 解答候補ごとに上位100件のウェブスニペットを取得して外部文脈を用いたRCモデルの研究に役立てる。
- 事前学習済み言語モデルのファインチューニング(BERT、GPT)、従来のQAモデル、ウェブ文脈を用いたRCモデルなど、幅広いベースラインを評価し、ランダム分割と質問-概念分割の精度を報告する。
実験結果
リサーチクエスチョン
- RQ1現在のNLUモデルは大規模な常識QAデータセットでどの程度性能を発揮するか?
- RQ2ConceptNetを用いた問いの地下付けと多様なディストラクター戦略は、表面的な手掛かりを超える難易度を生むか?
- RQ3常識推論タスクにおける事前学習済み言語モデル(例:BERT、GPT)の限界は何か?
- RQ4ウェブスニペットを用いた基底付けは常識質問のモデル性能にどう影響するか?
主な発見
| モデル | ランダム分割の精度 | SANITY | 質問概念分割の精度 | サニティ |
|---|---|---|---|---|
| BERT-large | 55.9 | 92.3 | 63.6 | 93.2 |
| GPT | 45.5 | 87.2 | 55.5 | 88.9 |
| BiDAF++ | 32.0 | 71.0 | 38.4 | 72.0 |
- 12,247個の常識質問が収集され、人間の高い正解率(約88.9%)を示している。
- 最良のモデル(BERT-large)はランダム分割で55.9%の精度を達成し、人間の性能には遠く及ばない。
- GPTおよびその他のベースラインはBERT-largeに対して劣る傾向があり、ウェブ文脈を用いたBiDAF++は限定的な改善しかもたらさない。
- SANITYの誤導情報制御は、難易度の高い質問の難易度を高める際に挑戦的な誤情報の重要性を示している。
- 学習曲線は、データ量が増えても僅かな改善にとどまることを示唆しており、100k例があってもBERT-largeの精度は約75%程度で、人間にはまだ及ばない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。