Skip to main content
QUICK REVIEW

[논문 리뷰] Learning-to-Rank with BERT in TF-Ranking

Shuguang Han, Xuanhui Wang|arXiv (Cornell University)|2020. 04. 17.
Topic Modeling참고 문헌 8인용 수 60
한 줄 요약

논문은 MS MARCO에 대해 TF-Ranking 내에서 쿼리–문서 쌍의 BERT 표현을 미세조정하는 프레이워크인 TFR-BERT를 제안합니다. 이는 패시지 재정렬과 전체 랭킹에서 최첨단 또는 근접 최첨단 결과를 달성하고, BERT, RoBERTa, ELECTRA를 앙상블하여 성능을 더욱 향상시킵니다.

ABSTRACT

This paper describes a machine learning algorithm for document (re)ranking, in which queries and documents are firstly encoded using BERT [1], and on top of that a learning-to-rank (LTR) model constructed with TF-Ranking (TFR) [2] is applied to further optimize the ranking performance. This approach is proved to be effective in a public MS MARCO benchmark [3]. Our first two submissions achieve the best performance for the passage re-ranking task [4], and the second best performance for the passage full-ranking task as of April 10, 2020 [5]. To leverage the lately development of pre-trained language models, we recently integrate RoBERTa [6] and ELECTRA [7]. Our latest submissions improve our previously state-of-the-art re-ranking performance by 4.3% [8], and achieve the third best performance for the full-ranking task [9] as of June 8, 2020. Both of them demonstrate the effectiveness of combining ranking losses with BERT representations for document ranking.

연구 동기 및 목표

  • 문서 랭킹에 대해 standalone 분류 방식보다 BERT 표현 위에 학습-랭크(Learning-to-Rank) 프레임워크를 사용하는 것을 동기화한다.
  • 쿼리-패시지 쌍을 인코딩하기 위해 BERT를 사용하고 랭킹 손실에 TF-Ranking을 적용하는 일반 프레임워크인 TFR-BERT를 소개한다.
  • MS MARCO에서 접근 방식을 평가하여 패시지 재정렬과 전체 랭킹 작업에서 이득을 보여준다.
  • 다양한 BERT 계열 모델과 랭킹 손실 간의 앙상블이 성능 극대화를 어떻게 가능하게 하는지 보여준다.

제안 방법

  • 쿼리–패시지 쌍을 BERT의 두 문장 입력으로 표현하고 [CLS] 토큰을 표현으로 사용한다.
  • BERT의 출력을 TF-Ranking에 제공하여 포인트와이즈(pointwise), 페어와이즈(pairwise), 리스트와이즈(listwise) 손실을 적용한다.
  • TPU에서 리스트 사이즈 12, 배치 사이즈 32로 학습하여 매 스텝당 384개의 쿼리–문서 쌍을 생성한다.
  • 여러 손실 및 여러 사전 학습 모델(BERT, RoBERTa, ELECTRA) 간의 앙상블을 탐구한다.
  • MS MARCO에서 재정렬과 전체 랭킹 과제를 MRR@10 평가 지표로 평가한다.

실험 결과

연구 질문

  • RQ1BERT 표현 위에 구축된 LTR 모델이 baselines 대비 MS MARCO에서 패시지 재정렬과 전체 랭킹을 개선할 수 있는가?
  • RQ2손실 및 여러 BERT 계열 모델에 대한 앙상블 전략이 MRR@10에서 일관된 이득을 제공하는가?
  • RQ3DeepCT, BM25, 네이티브 재랭킹의 결합이 전체 랭킹 설정에서 어떤 성능을 보이는가?
  • RQ4TF-Ranking BERT 프레임워크 내에서 RoBERTa 및 ELECTRA 같은 최신 사전 학습 모델을 사용하는 것이 어떤 영향을 미치는가?

주요 결과

ModelDev (MRR@10)Eval (MRR@10)
BM250.16700.1649
Duet V20.25170.2527
BERT + Small training (13)0.36530.3587
Previous Leaderboard Best0.37300.3676
TFR-BERT Single Run (Sigmoid cross entropy, pointwise)0.3716-
TFR-BERT (Pairwise logistic loss)0.3718-
TFR-BERT (Softmax loss, listwise)0.3725-
Submission #1 (re-ranking)0.37820.3660
Ensemble: Multiple Losses (5 runs)0.3839-
Ensemble: Pairwise logistic loss (5 runs)0.3849-
Ensemble: Softmax loss (5 runs)0.3856-
Submission #2 (re-ranking, 5 runs)0.38770.3747
Ensemble: Multiple BERTs (5 runs)0.3898-
RoBERTa (5 runs, listwise loss)0.3958-
ELECTRA (5 runs, listwise loss)0.3976-
Submission #4 (re-ranking: BERT/RoBERTa/ELECTRA ensemble)0.40460.3905
Submission #5 (full ranking ensemble)0.42130.4073
  • TFR-BERT는 패시지 재정렬에서 베이스라인보다 우수한 성능을 보이며 BM25 및 기존의 BERT 기반 방법에 비해 MRR@10에서 큰 이득을 얻는다.
  • 여러 실행 및 여러 손실 유형의 앙상블은 단일 실행 대비 개발 세트에서 약 3.5%에서 4.0%의 유의미한 개선을 제공한다.
  • RoBERTa 및 ELECTRA 앙상블은 BERT 단독보다 재정렬 성능을 더 향상시킨다.
  • 전체 랭킹에서 DeepCT와 TF-Ranking BERT 앙상블의 조합이 보고된 제출 중 최상의 성능을 달성하며 리더보드 최상위에 근접한다.
  • 여러 BERT 계열 모델(BERT, RoBERTa, ELECTRA) 앙상블은 2020년 중반 기준으로 재정렬 제출 중 최고 MRR@10을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.