QUICK REVIEW

[論文レビュー] A Comparative Study of Transformer-Based Language Models on Extractive Question Answering

Kate Pearce, Tiffany Zhan|arXiv (Cornell University)|Oct 7, 2021

Topic Modeling参考文献 20被引用数 22

ひとこと要約

本研究では、多様なデータセットにおける抽出型質問応答に対して、事前学習済みトランスフォーマー基盤言語モデルを評価し、RoBERTa、BART、BERT、ALBERT、XLNet、ConvBERTを比較した。本研究では、一般化性能を向上させるために、BERT-BiLSTMアンサンブルモデルを導入した。RoBERTaとBARTが全データセットで最高のF1スコアを記録した。BERT-BiLSTMモデルは、全データセットでBERTを最低1%以上上回る性能を示した。

ABSTRACT

Question Answering (QA) is a task in natural language processing that has seen considerable growth after the advent of transformers. There has been a surge in QA datasets that have been proposed to challenge natural language processing models to improve human and existing model performance. Many pre-trained language models have proven to be incredibly effective at the task of extractive question answering. However, generalizability remains as a challenge for the majority of these models. That is, some datasets require models to reason more than others. In this paper, we train various pre-trained language models and fine-tune them on multiple question answering datasets of varying levels of difficulty to determine which of the models are capable of generalizing the most comprehensively across different datasets. Further, we propose a new architecture, BERT-BiLSTM, and compare it with other language models to determine if adding more bidirectionality can improve model performance. Using the F1-score as our metric, we find that the RoBERTa and BART pre-trained models perform the best across all datasets and that our BERT-BiLSTM model outperforms the baseline BERT model.

研究の動機と目的

異なる複雑さのデータセットにおける抽出型質問応答タスクにおいて、さまざまな事前学習済みトランスフォーマー言語モデルの一般化性能を評価すること。
BERTに双方向長短期記憶（BiLSTM）層を追加することで、抽出型QAタスクにおける性能が向上するかどうかを調査すること。
SQuADのような単純な抽出的回答から、QuAC、NewsQA、CovidQAのような複雑で推論を要する質問まで、データセットの難易度がモデルの一般化性能に与える影響を評価すること。
複数のデータセットおよびモデルバリアントのF1スコアを比較することで、抽出型QAに最も効果的なモデルアーキテクチャを特定すること。

提案手法

SQuAD 2.0、QuAC、NewsQA、CovidQAの4つの抽出型QAデータセットに対して、RoBERTa、BART、BERT、ALBERT、XLNet、ConvBERTのベースバージョンを微調整した。
文脈と質問を連結して入力シーケンスを構築し、WordPieceおよびSentencePieceトークナイザーを用いてトークン化し、最大512トークンに切り詰めた。
BERTベースモデルの文脈表現の上にBiLSTM層を積み重ねることで、より優れたシーケンスモデリングを実現する、新しいBERT-BiLSTMアンサンブルモデルを実装した。
固定学習率5e-5、バッチサイズ8、NVIDIA 2x Quadro RTX 8000 GPUで3エポック分、Adam最適化手法を用いて学習した。
予測された開始・終了トークンスパンの適合率と再現率の調和平均として計算されるF1スコアを用いて、モデルの性能を評価した。
すべての入力を小文字に統一し、一貫性のあるトークナイズを確保するため、均一なトークナイゼーションを適用した。

実験結果

リサーチクエスチョン

RQ1どの事前学習済みトランスフォーマー基盤言語モデルが、難易度が異なる抽出型質問応答データセットにおいて最も効果的に一般化するか？
RQ2BERTアーキテクチャにBiLSTM層を追加することで、抽出型QAタスクにおける性能にどのような影響を与えるか？
RQ3RoBERTaとBARTは、推論を要するタスクも含む多様なQAベンチマークにおいて、他のモデルをどれほど上回るか？
RQ4なぜモデルは長文脈データセット（例：CovidQA）では性能を発揮しないのか？また、文脈長さはモデル性能にどのように影響するか？

主な発見

RoBERTaとBARTは、全4つのデータセットで最高のF1スコアを記録し、抽出型QAタスクにおいて優れた一般化性能と頑健性を示した。
BERT-BiLSTMモデルは、全データセットでベースのBERTモデルをF1スコアで最低1%以上上回り、追加の双方向モデリングが性能向上に寄与することを示した。
SQuAD 2.0では、単純な抽出的回答と短い文脈長さのおかげで性能が最も高く、QuACでは、オープンエンドで推論を要する質問のため、性能が著しく低下した。
NewsQAでは、SQuADに次いで高い性能を示し、RoBERTaとBARTが複雑な推論タスクを効果的に処理できることを示した。
CovidQAデータセットは、長い文脈と限られた学習データを特徴とし、モデル性能が著しく低下した。特に、最大シーケンス長が512トークンに固定されたモデルでは顕著だった。
RoBERTaに次文予測タスクが存在しなかったことが、その強力な性能の一因であった。これは、スパン予測タスクに関連するマスキング言語モデルの目的関数とより整合性があるためである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。