QUICK REVIEW

[論文レビュー] Multi-passage BERT: A Globally Normalized BERT Model for Open-domain Question Answering

Zhiguo Wang, Patrick Ng|arXiv (Cornell University)|Aug 22, 2019

Topic Modeling参考文献 20被引用数 24

ひとこと要約

本論文では、同じ質問に対するすべてのパラグラフのスコアを正規化することで、回答選択を向上させるグローバルに正規化されたBERTモデル、Multi-passage BERTを提案する。スライディングウィンドウによるパラグラフ分割（100語のウィンドウ）、BERTベースのパラグラフランカー、およびグローバル正規化を組み合わせることで、OpenSQuADで以前のすべてのモデルを上回り、EMで21.4%、F1で21.5%の向上を達成した。

ABSTRACT

BERT model has been successfully applied to open-domain QA tasks. However, previous work trains BERT by viewing passages corresponding to the same question as independent training instances, which may cause incomparable scores for answers from different passages. To tackle this issue, we propose a multi-passage BERT model to globally normalize answer scores across all passages of the same question, and this change enables our QA model find better answers by utilizing more passages. In addition, we find that splitting articles into passages with the length of 100 words by sliding window improves performance by 4%. By leveraging a passage ranker to select high-quality passages, multi-passage BERT gains additional 2%. Experiments on four standard benchmarks showed that our multi-passage BERT outperforms all state-of-the-art models on all benchmarks. In particular, on the OpenSQuAD dataset, our model gains 21.4% EM and 21.5% $F_1$ over all non-BERT models, and 5.8% EM and 6.5% $F_1$ over BERT-based models.

研究の動機と目的

BERTベースのオープンドメインQAにおいて、トレーニング時におけるパラグラフの独立性により生じる回答スコアの比較不能性という問題に取り組む。
特に、長文を短いパラグラフに分割することで性能が向上するかどうかを含め、オープンドメインQAにおける最適なパラグラフ粒度を調査する。
BERTベースのモデルにおける高品質なパラグラフの選択の有効性を評価する。
BERTが自己注意機構を内蔵していることを踏まえ、明示的な文間マッチング機構がBERTベースのモデルでは依然として必要かどうかを検証する。
グローバルに正規化されたマルチパラグラフBERTモデルを構築し、同じ質問に対するすべてのパラグラフのスコアを活用することで、回答選択を向上させる。

提案手法

同じ質問に対するすべてのパラグラフの回答スパンスコアに対してグローバルなソフトマックス正規化を適用するMulti-passage BERTを提案し、パラグラフ間でのスコア比較を可能にする。
100語のスライディングウィンドウを用いて長文をパラグラフに分割することで、粒度を向上させ、回答スパン予測に適したより多くの文脈を捉える。
[CLS]トークンの表現に基づき、各パラグラフに1つのスコアを割り当てるBERTベースのパラグラフランカーを導入し、グローバルにソフトマックスを用いてパラグラフをランク付けする。
同じ質問-パラグラフペアを用いて、正解の回答を含むパラグラフの対数尤度を最大化するようにパラグラフランカーを学習する。
同じ質問に対するすべてのパラグラフのスコアを統合し、共有のBERTエンコーダーとパラグラフ全体のスコアに対してソフトマックスを適用することで、回答スコアにグローバル正規化を適用する。
パラグラフランクイングと回答スパン予測の両方で共有のBERTエンコーダーを用い、統合的な目的関数での微調整により、エンドツーエンドの性能を向上させる。

実験結果

リサーチクエスチョン

RQ1同じ質問に対する複数のパラグラフの回答スコアをグローバルに正規化することで、オープンドメインQAにおけるモデルの安定性と性能が向上するか？
RQ2オープンドメインQAにおける最適なパラグラフ粒度は何か？特に、100語のスライディングウィンドウで長文を分割することで性能が向上するか？
RQ3BERTベースのパラグラフランカーは、低品質なパラグラフをフィルタリングすることで性能向上に寄与するか？また、BERTを回答予測に使用する場合でもその有効性は保たれるか？
RQ4BERTのマルチヘッド自己注意機構がすでに質問とパラグラフ間のクロスシーケンス相互作用を捉えていることを踏まえ、明示的な文間マッチング機構はBERTベースのモデルにとって依然として必要か？
RQ5グローバルに正規化されたマルチパラグラフBERTモデルは、複数のオープンドメインQAベンチマークで、既存の最先端モデルを上回る性能を発揮するか？

主な発見

10パラグラフを超える場合に、パラグラフ間の回答スコアをグローバルに正規化することで、モデルの安定性と性能が顕著に向上し、スコアの非可換性を防止できる。
スライディングウィンドウ（100語）を用いた長文のパラグラフ分割により、OpenSQuADベンチマークで4%の性能向上が達成された。
BERTベースのパラグラフランカーを活用することで、OpenSQuADで追加で2%の性能向上が得られ、低品質なパラグラフのフィルタリングにおける価値が示された。
明示的な文間マッチング機構はBERTベースのモデルでは有益ではなく、BERTの自己注意機構が質問とパラグラフ間の必要なクロス注目をすでに捉えている。
Multi-passage BERTは、OpenSQuADで非BERTモデルを21.4% EM、21.5% F1の向上で上回り、BERTベースのモデルに対しても5.8% EM、6.5% F1の向上を達成した。
本モデルは4つの標準ベンチマークで最先端の性能を達成し、非BERTおよびBERTベースのベースラインに対して一貫した向上を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。