[論文レビュー] Learning-to-Rank with BERT in TF-Ranking
論文は MS MARCO のニューラル学習ランキングを実現するために TF-Ranking 内でクエリ–ドキュメントペアの BERT 表現を微調整するフレームワーク TFR-BERT を提案し、パッセージ再ランキングと完全ランキングで最先端またはほぼ最先端の結果を達成し、BERT、RoBERTa、ELECTRA のアンサンブルによって性能をさらに向上させる。
This paper describes a machine learning algorithm for document (re)ranking, in which queries and documents are firstly encoded using BERT [1], and on top of that a learning-to-rank (LTR) model constructed with TF-Ranking (TFR) [2] is applied to further optimize the ranking performance. This approach is proved to be effective in a public MS MARCO benchmark [3]. Our first two submissions achieve the best performance for the passage re-ranking task [4], and the second best performance for the passage full-ranking task as of April 10, 2020 [5]. To leverage the lately development of pre-trained language models, we recently integrate RoBERTa [6] and ELECTRA [7]. Our latest submissions improve our previously state-of-the-art re-ranking performance by 4.3% [8], and achieve the third best performance for the full-ranking task [9] as of June 8, 2020. Both of them demonstrate the effectiveness of combining ranking losses with BERT representations for document ranking.
研究の動機と目的
- BERT 表現を用いた文書ランキングのための学習ランキングフレームワークを、単独の分類アプローチよりも優先して用いる動機付け。
- BERT でクエリ–パッセージ対をエンコードし、TF-Ranking をランキング損失に用いる汎用的なフレームワークである TFR-BERT を導入。
- MS MARCO を用いてパッセージ再ランキングと完全ランキングのタスクでの利得を実証。
- 異なる BERT 系モデルとランキング損失を組み合わせたアンサンリングの利点を示し、性能を最大化。
提案手法
- クエリ–パッセージ対を BERT の二文入力として表現し、[CLS] トークンを表現として使用。
- BERT の出力を TF-Ranking に入力し、 pointwise、 pairwise、listwise 損失を適用。
- TPU 上でリストサイズ 12、バッチサイズ 32 で学習し、ステップごとに 384 のクエリ–ドキュメント対を生成。
- 複数の損失と複数の事前学習モデル(BERT、RoBERTa、ELECTRA)を用いたアンサンリングを探索。
- MS MARCO の再ランキングと完全ランキングを MRR@10 を評価指標として評価。
実験結果
リサーチクエスチョン
- RQ1BERT 表現の上に構築された LTR モデルは、ベースラインと比較して MS MARCO のパッセージ再ランキングと完全ランキングを改善できるか。
- RQ2複数の BERT ファミリーモデルと複数の損失を組み合わせるアンサンブル戦略は MRR@10 に一貫した向上をもたらすか。
- RQ3DeepCT、BM25、ニューラル再ランキングの組み合わせは完全ランキング設定でどのような性能を示すか。
- RQ4TF-Ranking BERT フレームワーク内で新しい事前学習モデル(RoBERTa、ELECTRA)を使用することの影響は。
主な発見
| モデル | Dev (MRR@10) | Eval (MRR@10) |
|---|---|---|
| BM25 | 0.1670 | 0.1649 |
| Duet V2 | 0.2517 | 0.2527 |
| BERT + Small training (13) | 0.3653 | 0.3587 |
| Previous Leaderboard Best | 0.3730 | 0.3676 |
| TFR-BERT Single Run (Sigmoid cross entropy, pointwise) | 0.3716 | - |
| TFR-BERT (Pairwise logistic loss) | 0.3718 | - |
| TFR-BERT (Softmax loss, listwise) | 0.3725 | - |
| Submission #1 (re-ranking) | 0.3782 | 0.3660 |
| Ensemble: Multiple Losses (5 runs) | 0.3839 | - |
| Ensemble: Pairwise logistic loss (5 runs) | 0.3849 | - |
| Ensemble: Softmax loss (5 runs) | 0.3856 | - |
| Submission #2 (re-ranking, 5 runs) | 0.3877 | 0.3747 |
| Ensemble: Multiple BERTs (5 runs) | 0.3898 | - |
| RoBERTa (5 runs, listwise loss) | 0.3958 | - |
| ELECTRA (5 runs, listwise loss) | 0.3976 | - |
| Submission #4 (re-ranking: BERT/RoBERTa/ELECTRA ensemble) | 0.4046 | 0.3905 |
| Submission #5 (full ranking ensemble) | 0.4213 | 0.4073 |
- TFR-BERT はパッセージ再ランキングでベースラインを上回り、BM25 および従来の BERT ベース手法と比較して MR R@10 の顕著な向上を示す。
- 複数の実行と複数の損失タイプをアンサンブルすると、単一実行に比べて開発セットで約 3.5% から 4.0% の有意な改善をもたらす。
- RoBERTa および ELECTRA のアンサンブルを組み込むと、BERT のみよりも再ランキング性能がさらに向上する。
- 完全ランキングでは、DeepCT と TF-Ranking BERT のアンサンブルを組み合わせると、報告された提出物の中で最高性能を達成し、リーダーボードのベストに近づく。
- 複数の BERT ファミリーモデル(BERT、RoBERTa、ELECTRA)のアンサンブルは、ミッド 2020 時点で再ランキング提出の中で最良の MR R@10 を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。