QUICK REVIEW

[論文レビュー] Passage Re-ranking with BERT

Rodrigo Nogueira, Kyunghyun Cho|arXiv (Cornell University)|Jan 13, 2019

Topic Modeling参考文献 20被引用数 346

ひとこと要約

著者はBERTをクエリベースの検索のためのパッセージ再ランキングに再利用し、BM25候補の上にBERT-LARGEをファインチューニングすることでMS MARCOとTREC-CARで最先端の結果を達成。

ABSTRACT

Recently, neural models pretrained on a language modeling task, such as ELMo (Peters et al., 2017), OpenAI GPT (Radford et al., 2018), and BERT (Devlin et al., 2018), have achieved impressive results on various natural language processing tasks such as question-answering and natural language inference. In this paper, we describe a simple re-implementation of BERT for query-based passage re-ranking. Our system is the state of the art on the TREC-CAR dataset and the top entry in the leaderboard of the MS MARCO passage retrieval task, outperforming the previous state of the art by 27% (relative) in MRR@10. The code to reproduce our results is available at https://github.com/nyu-dl/dl4marco-bert

研究の動機と目的

与えられたクエリに対して候補パッセージを再ランク付けするためにBERTを活用する。
MS MARCOおよびTREC-CARにおいて、従来の神経IR法および伝統的な情報検索手法に対して著しい性能向上を示す。
シンプルなクロスエントロピー目的関数で事前学習済みBERTモデルをファインチューニングすることで、パッセージの関連度スコアが高くなることを示す。

提案手法

クエリを文A、パッセージを文Bとして、それらをBERT-LARGEの二値分類器に入力する。
クエリを最大64トークンに切り捨て、[CLS]、クエリ、パッセージ、区切りトークンを含む結合を512トークンに切り詰める。
BM25上位1000候補からのラベル付きクエリ-パッセージペアを用いて、クロスエントロピー損失で事前学習済みBERT-LARGEをファインチューニングする。
各候補ごとにパッセージの関連度確率を独立に計算し、これらの確率でランク付けする。
MS MARCOと TREC-CARを、TPU v3-8と学習率ウォームアップ・減衰付きのAdamオプティマイザで訓練する。
限られたデータ量での訓練が、従来のSOTAに対して強い性能向上をもたらすことを示す。

実験結果

リサーチクエスチョン

RQ1BERT-LARGEを二値関連性分類器としてファインチューニングした場合、オープンドメインの質問応答データセットに対してパッセージを効果的に再ランキングできるか？
RQ2MS MARCOおよびTREC-CARで、従来のBM25ベースラインおよび既存のニューラルモデルに対するBERTベースの再ランキングの性能向上はどれくらいか？
RQ3BERT再ランキングが競争力のあるまたは最先端の結果を達成するには、どれくらいの訓練データが必要か？

主な発見

手法	Dev	Eval	Test
BM25 (Lucene, no tuning)	16.7	16.5	12.3
BM25 (Anserini, tuned)	-	-	15.3
Co-PACRR ⋆ (MacAvaney et al., 2017)	-	-	14.8
KNRM (Xiong et al., 2017)	21.8	19.8	-
Conv-KNRM (Dai et al., 2018)	29.0	27.1	-
IRNet †	27.8	28.1	-
BERT Base	34.7	-	31.0
BERT Large	36.5	35.8	33.5

BERT-LARGE再ランキングはMS MARCOおよびMS MARCO TREC-CARタスクで最先端の結果を達成。
MS MARCOでは、BERT-LARGEは従来のSOTA（例: IR-NET）を大幅に上回り、MRR@10で大きな向上を示す。
100kのクエリ-パッセージペアほど少ない訓練データで訓練しても、従来手法に対して大きな性能向上を得られる。
BM25を用いてトップ-1000候補を生成することで、BERT再ランキングはBM25などのベースラインや他のニューラルモデルを改善する。
このアプローチは、利用可能なデータのごく一部（例: 100kペア）で訓練しても強力な結果をもたらす。
著者は結果を再現するためのコードを公開する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。