QUICK REVIEW

[論文レビュー] Knowledge Fusion and Semantic Knowledge Ranking for Open Domain Question Answering

Pratyay Banerjee, Chitta Baral|arXiv (Cornell University)|Apr 7, 2020

Topic Modeling参考文献 40被引用数 24

ひとこと要約

本稿では、QASCおよびOpenBookQAにおけるオープンドメイン質問応答の性能を向上させるために、知識統合と意味的知識ランク付けのフレームワークを提案する。BERTベースのモデルに知識統合モジュールを追加し、BERTベースの意味的ランク付けモデルを用いて取得した事実を再ランク付けすることで、先行手法に比べてQASCで7.28%、OpenBookQAで2.2%の精度向上を達成した。

ABSTRACT

Open Domain Question Answering requires systems to retrieve external knowledge and perform multi-hop reasoning by composing knowledge spread over multiple sentences. In the recently introduced open domain question answering challenge datasets, QASC and OpenBookQA, we need to perform retrieval of facts and compose facts to correctly answer questions. In our work, we learn a semantic knowledge ranking model to re-rank knowledge retrieved through Lucene based information retrieval systems. We further propose a "knowledge fusion model" which leverages knowledge in BERT-based language models with externally retrieved knowledge and improves the knowledge understanding of the BERT-based language models. On both OpenBookQA and QASC datasets, the knowledge fusion model with semantically re-ranked knowledge outperforms previous attempts.

研究の動機と目的

オープンドメイン質問応答の文脈で、外部ソースから関連する知識を抽出・統合する課題に対処すること。
マルチホップ推論に適したドメイン固有の知識を理解・統合できるように、BERTベースのモデルの性能を向上させること。
質問-回答ペアを用いて取得した事実を再ランク付けする、耐障害性の高い意味的知識ランク付けモデルの開発。
QASC、OpenBookQA、SciTailからのアノテーションを活用して、意味的知識ランク付けモデルの学習に適した高品質なデータセットを構築すること。
知識抽出および質問応答における失敗モードを分析し、将来的なモデル設計改善の指針を示すこと。

提案手法

Elasticsearchで取得した知識事実を再ランク付けするためのBERTベースの意味的知識ランク付けモデルを訓練し、質問-回答ペアを入力として、関連性の向上を図る。
外部知識と事前学習済みBERT表現を統合する知識統合モジュールを導入し、組み合わせた事実の上での推論能力を向上させる。
知識統合モデルは、質問-回答ペア間で共有される入力表現を用いることで、正しい回答選択肢と誤った選択肢の区別を高める。
QASC、OpenBookQA、SciTailからのアノテーションを統合するマルチソースデータセット準備パイプラインを構築し、意味的ランク付けのための正例・負例を生成する。
システムは2段階のリtrievalとランク付け戦略を採用する：まずLuceneベースの情報検索で候補事実を取得し、次に意味的モデルで再ランク付けを行う。
最終的なモデルは、RoBERTaと段階的リtrieval、意味的知識ランク付け、知識統合を統合することで、QASCおよびOpenBookQAの両タスクで最適な性能を達成する。

実験結果

リサーチクエスチョン

RQ1意味的知識ランク付けは、オープンドメイン質問応答における取得事実の品質をどのように向上させるか？
RQ2知識統合は、BERTベースのモデルにおけるマルチホップ推論と正答率にどのような影響を与えるか？
RQ3QAパイプラインの各コンponent（リtrieval、ランク付け、統合）は、全体の性能と失敗モードにどのように影響を与えるか？
RQ4現在のモデルで最も一般的な推論失敗の種類（例：複雑な推論、論理積、否定）は何か？
RQ5知識ランク付けに回答に特化した表現を組み込むことで、意味的に類似しているが誤った事実によるノイズをどのように低減できるか？

主な発見

提案モデルはQASCでテスト精度80.43%を達成し、前回の最先端手法に比べ7.28%の向上を示した。
OpenBookQAではテスト精度85.20%を達成し、前回の最良手法に比べ2.2%の向上を示した。
意味的知識ランク付けモデルはバリデーション精度91.56%を達成したが、主な誤りは誤った回答が関連するが誤りな事実とペairedされた偽陽性であった。
OpenBookQAにおける72%の誤りは知識リtrievalの失敗に起因しており、パイプラインの主要なボトルネックであることが示された。
意味的に関連するが誤った答えを支持する事実が、特にQASCでは137件の誤りのうち25件に及ぶなど、重大な誤り要因であった。
正解予測では誤り予測よりも高い信頼度を示しており、信頼度のキャリブレーションをさらに進めることで、さらなる耐障害性向上が可能であると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。