QUICK REVIEW

[論文レビュー] Improving Question Answering with External Knowledge

Xiaoman Pan, Kai Sun|arXiv (Cornell University)|Feb 3, 2019

Topic Modeling参考文献 54被引用数 30

ひとこと要約

本稿では、事前学習されたBERTモデルに、Wikipediaからの非構造的外部知識と追加のドメイン特化データを統合することで、複数選択式の科学QAタスクの性能を向上させる手法を提案する。曖昧な概念に対してWikipediaスニペットを用いて参照コーパスを拡張し、学習データを拡張することで、ARC-Challengeで最大13.0%、OpenBookQAで12.8%の精度向上を達成し、分野特化型QAにおける非構造的知識の重要性を示した。

ABSTRACT

We focus on multiple-choice question answering (QA) tasks in subject areas such as science, where we require both broad background knowledge and the facts from the given subject-area reference corpus. In this work, we explore simple yet effective methods for exploiting two sources of external knowledge for subject-area QA. The first enriches the original subject-area reference corpus with relevant text snippets extracted from an open-domain resource (i.e., Wikipedia) that cover potentially ambiguous concepts in the question and answer options. As in other QA research, the second method simply increases the amount of training data by appending additional in-domain subject-area instances. Experiments on three challenging multiple-choice science QA tasks (i.e., ARC-Easy, ARC-Challenge, and OpenBookQA) demonstrate the effectiveness of our methods: in comparison to the previous state-of-the-art, we obtain absolute gains in accuracy of up to 8.1%, 13.0%, and 12.8%, respectively. While we observe consistent gains when we introduce knowledge from Wikipedia, we find that employing additional QA training instances is not uniformly helpful: performance degrades when the added instances exhibit a higher level of difficulty than the original training data. As one of the first studies on exploiting unstructured external knowledge for subject-area QA, we hope our methods, observations, and discussion of the exposed limitations may shed light on further developments in the area.

研究の動機と目的

分野特化知識と広範な背景知識の両方が必要な複数選択式の科学QAタスクの性能向上を目的とする。
事前学習された言語モデルに、特にWikipediaからの非構造的外部知識を統合することで、分野特化型QAの性能に与える影響を調査すること。
追加のドメイン特化QAインスタンスによる学習データの増強が、特に難易度の異なるデータにおいて性能に与える影響を評価すること。
追加されたインスタンスが元の学習データよりも複雑である場合のデータ増強戦略の限界を特定すること。
実証結果と観察された制約を分析することで、今後の分野特化型QAにおける外部知識統合研究の基盤を確立すること。

提案手法

名前付きエンティティ認識とコンセプトリンクを用いて、質問および選択肢内の曖昧な概念を特定する。
ドキュメント検索のための密度的検索またはキーワードベースの検索を用いて、各概念に対応する関連するWikipediaスニペットを取得する。
各（質問、選択肢）ペアに対して、取得したWikipediaスニペットを追加することで、元の分野特化型参照コーパスを拡張し、拡張済みドキュメントを生成する。
各入力が質問、候補となる回答、および拡張済みドキュメントを含むように、拡張された学習データ上で事前学習されたBERTモデルを微調整する。
他の科学QAデータセット（例：RACE、SQuAD）から得られる追加のドメイン特化QAインスタンスを学習セットに追加することで、データの多様性を高める。
2段階の微調整戦略を適用する：まず大規模なMRCデータセット（例：RACE）で事前学習を行い、次に外部知識を統合したターゲット分野特化型QAタスクで微調整する。

実験結果

リサーチクエスチョン

RQ1曖昧な概念に対してWikipediaスニペットを参照コーパスに追加することで、科学QAタスクの性能向上が達成できるか？
RQ2追加のドメイン特化学習データによるデータ増強が、分野特化型QAにおける一般化性能と精度に寄与するか？
RQ3追加のドメイン特化学習インスタンスの難易度がモデル性能に与える影響は何か？
RQ4Wikipediaからの非構造的外部知識は、構造化された知識ベースよりも科学QAの性能向上に有効であるか？
RQ5追加データが元の学習分布よりも著しく難易度が高い場合、データ増強戦略の限界は何か？

主な発見

本手法は、以前のSOTAと比較して、ARC-Easyで8.1%、ARC-Challengeで13.0%、OpenBookQAで12.8%の絶対的精度向上を達成した。
Wikipedia由来の知識を統合することで、3つのベンチマークすべてで一貫した性能向上が確認され、非構造的外部知識の価値が裏付けられた。
追加のドメイン特化学習インスタンスが元の学習データよりも難易度が高い場合、性能が低下した。これは、データ品質と難易度の整合性が重要であることを示している。
RACEで事前微調整を省略した場合、モデルの性能が著しく低下した。これは、大規模なMRCデータで事前学習することが重要であることを示している。
本研究は、事前学習された言語モデルに非構造的Wikipedia知識を効果的に統合した最初の研究の一つであり、新たなベースラインを確立した。
今後の改善は、構造化済みと非構造的外部知識ソースを統合的に活用することに焦点を当てるべきであると示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。