[論文レビュー] How Additional Knowledge can Improve Natural Language Commonsense Question Answering?
この論文は、外部の常識知識を統合することで BERT/RoBERTa を用いた多肢選択問題 QA を向上させる方法を研究し、四つの知識注入モデルと三つの知識戦略を提案し、aNLI、PIQA、SocialIQA、および合成 PFQA データセットで改善結果を示す。
Recently several datasets have been proposed to encourage research in Question Answering domains where commonsense knowledge is expected to play an important role. Recent language models such as ROBERTA, BERT and GPT that have been pre-trained on Wikipedia articles and books have shown reasonable performance with little fine-tuning on several such Multiple Choice Question-Answering (MCQ) datasets. Our goal in this work is to develop methods to incorporate additional (commonsense) knowledge into language model-based approaches for better question-answering in such domains. In this work, we first categorize external knowledge sources, and show performance does improve on using such sources. We then explore three different strategies for knowledge incorporation and four different models for question-answering using external commonsense knowledge. We analyze our predictions to explore the scope of further improvements.
研究の動機と目的
- 事前学習だけではなく、外部の常識知識を活用して QA を強化する動機づけ。
- 外部知識源を導出方法と関連性に基づいてカテゴリ化し、常識QAタスクに適用。
- BERT/RoBERTa フレームワーク内で四つの知識注入モデルを提案・比較。
- 複数データセット(aNLI、PIQA、SocialIQA)と合成 PFQA データセットで知識注入を評価。
提案手法
- 知識源を Directly Derived、Partially Derived、and Relevant に分類して評価。
- Elasticsearchを用いて知識をインデックス化・取得し、情報利得とSpacy類似度による再ランク付けを採用。
- 3つの戦略の下でBERT/RoBERTaをファインチューニング:Revision(KBのみ事前学習)、Open-Book(事例ごとKBサブセット)、および両方(Revision + Open-Book)。
- 知識を融合する4つのモデルを導入:Concat、Parallel-Max、Simple Sum、Weighted Sum。
- Open-Book の下に4つの知識融合バリアントを実装(Weighted Sumには2つのバリアント)により回答スコアを生成。
- 知識文を横断する記憶とマルチホップ推論を検証する合成 PFQA データセットを作成・評価。
実験結果
リサーチクエスチョン
- RQ1外部の知識を組み込むことは、常識データセットの MCQ QA の性能を向上させるか?
- RQ2どの知識源カテゴリ(Directly Derived, Partially Derived, Relevant)が QA の性能に最も有益か?
- RQ34つの知識融合モデルのうち、データセット全体で retrieved knowledge を最もよく活用できるのはどれか?
- RQ4Revision、Open-Book、及び組み合わせ戦略は、タスク間でどの程度効果的か?
主な発見
- Knowledge infusion はデータセット全体で性能を向上させる;Open-Book と Revision の戦略の双方が有益で、組み合わせ戦略がしばしば最良の結果を生み出す。
- Weighted Sum が全体として最も強力な知識融合モデルであり、複数の知識パッセージの重み付けを柔軟に行える。
- PIQA と aNLI はより大きな知識セットから恩恵を受ける一方、知識が多すぎるとノイズやミスマッチのため aNLI が悪化する場合がある。
- RoBERTa は知識からの恩恵を受けやすいケースがあり得る一方、BERT は改善を示すが、 retrieved knowledge によって一部設定で分散されることがある。
- SocialIQA と PFQA は恩恵を示すものの人間の精度には及ばず、現在の外部知識アプローチの限界を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。