[논문 리뷰] Learning-to-Rank with BERT in TF-Ranking
논문은 MS MARCO에 대해 TF-Ranking 내에서 쿼리–문서 쌍의 BERT 표현을 미세조정하는 프레이워크인 TFR-BERT를 제안합니다. 이는 패시지 재정렬과 전체 랭킹에서 최첨단 또는 근접 최첨단 결과를 달성하고, BERT, RoBERTa, ELECTRA를 앙상블하여 성능을 더욱 향상시킵니다.
This paper describes a machine learning algorithm for document (re)ranking, in which queries and documents are firstly encoded using BERT [1], and on top of that a learning-to-rank (LTR) model constructed with TF-Ranking (TFR) [2] is applied to further optimize the ranking performance. This approach is proved to be effective in a public MS MARCO benchmark [3]. Our first two submissions achieve the best performance for the passage re-ranking task [4], and the second best performance for the passage full-ranking task as of April 10, 2020 [5]. To leverage the lately development of pre-trained language models, we recently integrate RoBERTa [6] and ELECTRA [7]. Our latest submissions improve our previously state-of-the-art re-ranking performance by 4.3% [8], and achieve the third best performance for the full-ranking task [9] as of June 8, 2020. Both of them demonstrate the effectiveness of combining ranking losses with BERT representations for document ranking.
연구 동기 및 목표
- 문서 랭킹에 대해 standalone 분류 방식보다 BERT 표현 위에 학습-랭크(Learning-to-Rank) 프레임워크를 사용하는 것을 동기화한다.
- 쿼리-패시지 쌍을 인코딩하기 위해 BERT를 사용하고 랭킹 손실에 TF-Ranking을 적용하는 일반 프레임워크인 TFR-BERT를 소개한다.
- MS MARCO에서 접근 방식을 평가하여 패시지 재정렬과 전체 랭킹 작업에서 이득을 보여준다.
- 다양한 BERT 계열 모델과 랭킹 손실 간의 앙상블이 성능 극대화를 어떻게 가능하게 하는지 보여준다.
제안 방법
- 쿼리–패시지 쌍을 BERT의 두 문장 입력으로 표현하고 [CLS] 토큰을 표현으로 사용한다.
- BERT의 출력을 TF-Ranking에 제공하여 포인트와이즈(pointwise), 페어와이즈(pairwise), 리스트와이즈(listwise) 손실을 적용한다.
- TPU에서 리스트 사이즈 12, 배치 사이즈 32로 학습하여 매 스텝당 384개의 쿼리–문서 쌍을 생성한다.
- 여러 손실 및 여러 사전 학습 모델(BERT, RoBERTa, ELECTRA) 간의 앙상블을 탐구한다.
- MS MARCO에서 재정렬과 전체 랭킹 과제를 MRR@10 평가 지표로 평가한다.
실험 결과
연구 질문
- RQ1BERT 표현 위에 구축된 LTR 모델이 baselines 대비 MS MARCO에서 패시지 재정렬과 전체 랭킹을 개선할 수 있는가?
- RQ2손실 및 여러 BERT 계열 모델에 대한 앙상블 전략이 MRR@10에서 일관된 이득을 제공하는가?
- RQ3DeepCT, BM25, 네이티브 재랭킹의 결합이 전체 랭킹 설정에서 어떤 성능을 보이는가?
- RQ4TF-Ranking BERT 프레임워크 내에서 RoBERTa 및 ELECTRA 같은 최신 사전 학습 모델을 사용하는 것이 어떤 영향을 미치는가?
주요 결과
| Model | Dev (MRR@10) | Eval (MRR@10) |
|---|---|---|
| BM25 | 0.1670 | 0.1649 |
| Duet V2 | 0.2517 | 0.2527 |
| BERT + Small training (13) | 0.3653 | 0.3587 |
| Previous Leaderboard Best | 0.3730 | 0.3676 |
| TFR-BERT Single Run (Sigmoid cross entropy, pointwise) | 0.3716 | - |
| TFR-BERT (Pairwise logistic loss) | 0.3718 | - |
| TFR-BERT (Softmax loss, listwise) | 0.3725 | - |
| Submission #1 (re-ranking) | 0.3782 | 0.3660 |
| Ensemble: Multiple Losses (5 runs) | 0.3839 | - |
| Ensemble: Pairwise logistic loss (5 runs) | 0.3849 | - |
| Ensemble: Softmax loss (5 runs) | 0.3856 | - |
| Submission #2 (re-ranking, 5 runs) | 0.3877 | 0.3747 |
| Ensemble: Multiple BERTs (5 runs) | 0.3898 | - |
| RoBERTa (5 runs, listwise loss) | 0.3958 | - |
| ELECTRA (5 runs, listwise loss) | 0.3976 | - |
| Submission #4 (re-ranking: BERT/RoBERTa/ELECTRA ensemble) | 0.4046 | 0.3905 |
| Submission #5 (full ranking ensemble) | 0.4213 | 0.4073 |
- TFR-BERT는 패시지 재정렬에서 베이스라인보다 우수한 성능을 보이며 BM25 및 기존의 BERT 기반 방법에 비해 MRR@10에서 큰 이득을 얻는다.
- 여러 실행 및 여러 손실 유형의 앙상블은 단일 실행 대비 개발 세트에서 약 3.5%에서 4.0%의 유의미한 개선을 제공한다.
- RoBERTa 및 ELECTRA 앙상블은 BERT 단독보다 재정렬 성능을 더 향상시킨다.
- 전체 랭킹에서 DeepCT와 TF-Ranking BERT 앙상블의 조합이 보고된 제출 중 최상의 성능을 달성하며 리더보드 최상위에 근접한다.
- 여러 BERT 계열 모델(BERT, RoBERTa, ELECTRA) 앙상블은 2020년 중반 기준으로 재정렬 제출 중 최고 MRR@10을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.