QUICK REVIEW

[논문 리뷰] Learning-to-Rank with BERT in TF-Ranking

Shuguang Han, Xuanhui Wang|arXiv (Cornell University)|2020. 04. 17.

Topic Modeling참고 문헌 8인용 수 60

한 줄 요약

논문은 MS MARCO에 대해 TF-Ranking 내에서 쿼리–문서 쌍의 BERT 표현을 미세조정하는 프레이워크인 TFR-BERT를 제안합니다. 이는 패시지 재정렬과 전체 랭킹에서 최첨단 또는 근접 최첨단 결과를 달성하고, BERT, RoBERTa, ELECTRA를 앙상블하여 성능을 더욱 향상시킵니다.

ABSTRACT

This paper describes a machine learning algorithm for document (re)ranking, in which queries and documents are firstly encoded using BERT [1], and on top of that a learning-to-rank (LTR) model constructed with TF-Ranking (TFR) [2] is applied to further optimize the ranking performance. This approach is proved to be effective in a public MS MARCO benchmark [3]. Our first two submissions achieve the best performance for the passage re-ranking task [4], and the second best performance for the passage full-ranking task as of April 10, 2020 [5]. To leverage the lately development of pre-trained language models, we recently integrate RoBERTa [6] and ELECTRA [7]. Our latest submissions improve our previously state-of-the-art re-ranking performance by 4.3% [8], and achieve the third best performance for the full-ranking task [9] as of June 8, 2020. Both of them demonstrate the effectiveness of combining ranking losses with BERT representations for document ranking.

연구 동기 및 목표

문서 랭킹에 대해 standalone 분류 방식보다 BERT 표현 위에 학습-랭크(Learning-to-Rank) 프레임워크를 사용하는 것을 동기화한다.
쿼리-패시지 쌍을 인코딩하기 위해 BERT를 사용하고 랭킹 손실에 TF-Ranking을 적용하는 일반 프레임워크인 TFR-BERT를 소개한다.
MS MARCO에서 접근 방식을 평가하여 패시지 재정렬과 전체 랭킹 작업에서 이득을 보여준다.
다양한 BERT 계열 모델과 랭킹 손실 간의 앙상블이 성능 극대화를 어떻게 가능하게 하는지 보여준다.

제안 방법

쿼리–패시지 쌍을 BERT의 두 문장 입력으로 표현하고 [CLS] 토큰을 표현으로 사용한다.
BERT의 출력을 TF-Ranking에 제공하여 포인트와이즈(pointwise), 페어와이즈(pairwise), 리스트와이즈(listwise) 손실을 적용한다.
TPU에서 리스트 사이즈 12, 배치 사이즈 32로 학습하여 매 스텝당 384개의 쿼리–문서 쌍을 생성한다.
여러 손실 및 여러 사전 학습 모델(BERT, RoBERTa, ELECTRA) 간의 앙상블을 탐구한다.
MS MARCO에서 재정렬과 전체 랭킹 과제를 MRR@10 평가 지표로 평가한다.

실험 결과

연구 질문

RQ1BERT 표현 위에 구축된 LTR 모델이 baselines 대비 MS MARCO에서 패시지 재정렬과 전체 랭킹을 개선할 수 있는가?
RQ2손실 및 여러 BERT 계열 모델에 대한 앙상블 전략이 MRR@10에서 일관된 이득을 제공하는가?
RQ3DeepCT, BM25, 네이티브 재랭킹의 결합이 전체 랭킹 설정에서 어떤 성능을 보이는가?
RQ4TF-Ranking BERT 프레임워크 내에서 RoBERTa 및 ELECTRA 같은 최신 사전 학습 모델을 사용하는 것이 어떤 영향을 미치는가?

주요 결과

Model	Dev (MRR@10)	Eval (MRR@10)
BM25	0.1670	0.1649
Duet V2	0.2517	0.2527
BERT + Small training (13)	0.3653	0.3587
Previous Leaderboard Best	0.3730	0.3676
TFR-BERT Single Run (Sigmoid cross entropy, pointwise)	0.3716	-
TFR-BERT (Pairwise logistic loss)	0.3718	-
TFR-BERT (Softmax loss, listwise)	0.3725	-
Submission #1 (re-ranking)	0.3782	0.3660
Ensemble: Multiple Losses (5 runs)	0.3839	-
Ensemble: Pairwise logistic loss (5 runs)	0.3849	-
Ensemble: Softmax loss (5 runs)	0.3856	-
Submission #2 (re-ranking, 5 runs)	0.3877	0.3747
Ensemble: Multiple BERTs (5 runs)	0.3898	-
RoBERTa (5 runs, listwise loss)	0.3958	-
ELECTRA (5 runs, listwise loss)	0.3976	-
Submission #4 (re-ranking: BERT/RoBERTa/ELECTRA ensemble)	0.4046	0.3905
Submission #5 (full ranking ensemble)	0.4213	0.4073

TFR-BERT는 패시지 재정렬에서 베이스라인보다 우수한 성능을 보이며 BM25 및 기존의 BERT 기반 방법에 비해 MRR@10에서 큰 이득을 얻는다.
여러 실행 및 여러 손실 유형의 앙상블은 단일 실행 대비 개발 세트에서 약 3.5%에서 4.0%의 유의미한 개선을 제공한다.
RoBERTa 및 ELECTRA 앙상블은 BERT 단독보다 재정렬 성능을 더 향상시킨다.
전체 랭킹에서 DeepCT와 TF-Ranking BERT 앙상블의 조합이 보고된 제출 중 최상의 성능을 달성하며 리더보드 최상위에 근접한다.
여러 BERT 계열 모델(BERT, RoBERTa, ELECTRA) 앙상블은 2020년 중반 기준으로 재정렬 제출 중 최고 MRR@10을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.