Skip to main content
QUICK REVIEW

[논문 리뷰] RankZephyr: Effective and Robust Zero-Shot Listwise Reranking is a Breeze!

Ronak Pradeep, Sahel Sharifymoghaddam|arXiv (Cornell University)|2023. 12. 05.
Topic Modeling인용 수 9
한 줄 요약

RankZephyr는 오픈소스 7B LLM으로, MS MARCO, BEIR, NovelEval 벤치마크 전반에서 제로샷 기반 리스트와 재랭킹에서 최첨단 성능을 달성하며, RankGPT-4와 겨루거나 경우에 따라 이를 능가합니다. 다양한 후보 목록 크기와 순서에서도 견고한 성능을 보입니다.

ABSTRACT

In information retrieval, proprietary large language models (LLMs) such as GPT-4 and open-source counterparts such as LLaMA and Vicuna have played a vital role in reranking. However, the gap between open-source and closed models persists, with reliance on proprietary, non-transparent models constraining reproducibility. Addressing this gap, we introduce RankZephyr, a state-of-the-art, open-source LLM for listwise zero-shot reranking. RankZephyr not only bridges the effectiveness gap with GPT-4 but in some cases surpasses the proprietary model. Our comprehensive evaluations across several datasets (TREC Deep Learning Tracks; NEWS and COVID from BEIR) showcase this ability. RankZephyr benefits from strategic training choices and is resilient against variations in initial document ordering and the number of documents reranked. Additionally, our model outperforms GPT-4 on the NovelEval test set, comprising queries and passages past its training period, which addresses concerns about data contamination. To foster further research in this rapidly evolving field, we provide all code necessary to reproduce our results at https://github.com/castorini/rank_llm.

연구 동기 및 목표

  • 오픈소스 제로샷 리스트와 재랭커를 개발하여 재현성의 격차를 해소한다.
  • 오픈소스 LLM과 GPT-4와 같은 독점 모델 간의 효과 격차를 좁힌다.
  • 훈련 선택, 교사 모델, 1단계 검색기가 재랭킹 품질에 미치는 영향을 조사한다.
  • 후보 목록 크기, 초기 문서 순서, 데이터 오염 문제에 대한 강건성을 검토한다.

제안 방법

  • 관련도 순위 선정 여부를 위한 제로샷 리스트와 재랭킹용 프롬프트 설계(시스템 프롬프트와 사용자 프롬프트를 사용).
  • 두 단계 증류: 먼저 GPT-3.5 RankGPT 데이터에서 7B Zephyr 모델로 증류하고, 그다음 GPT-4에서 5K 쿼리의 부분집합을 사용하여 ADA 2를 후보 순서로 삼아 증류한다.
  • 슬라이딩 윈도 디코더를 활용하여(최대 3회 점진적으로 적용된 패스) 상위 k개의 문서 순위를 출력한다.
  • 입력 길이와 순서에 대한 강건성을 향상시키기 위해 가변 윈도우 크기를 실험한다.
  • 지시 조정(Instruction Tuning)을 강화하기 위해 다양한 소스의 하드 네가티브와 다양한 쿼리 분포로 학습한다.
  • MS MARCO v1/v2 DL 트랙, BEIR NEWS/COVID, NovelEval에서 평가하고 BM25, SPLADE++, RepLLaMA, RankVicuna, RankGPT-3.5 및 RankGPT-4를 포함한 베이스라인과 비교한다.

실험 결과

연구 질문

  • RQ1표준 벤치마크에서 오픈소스 7B 모델(RankZephyr)이 RankGPT-4의 제로샷 재랭킹 효과를 능가할 수 있는가?
  • RQ2진행형(다중 패스) 재랭킹이 지속적으로 리스트와 재랭킹의 효과를 향상시키는가?
  • RQ3어떤 학습 데이터 선택(교사 모델, 하드 네가티브, 쿼리 노출, 윈도우 크기)이 RankGPT-4와의 격차를 가장 잘 줄이는가?
  • RQ41단계 검색기와 상위 후보 조회 수가 하위 재랭킹에 어떤 영향을 미치는가?
  • RQ5초기 문서 순서가 재랭킹 성능과 모델 강건성에 미치는 영향은 무엇이며, 특히 순서 변동 하에서 어떤가?
  • RQ6RankZephyr는 NovelEval과 같은 학습 컷오프를 벗어난 비오염 테스트 세트에 대해 견고한가?

주요 결과

  • 7B 파라미터를 가진 RankZephyr는 RankGPT-4와의 효과 격차를 좁히며 특정 데이터셋에서는 RankGPT-4를 능가하기도 한다.
  • 진행형 재랭킹(RankZephyr ρ)은 일반적으로 단일 패스보다 더 나은 최종 효과를 낸다.
  • 5K 쿼리와 ADA 2를 1단계 검색기로 사용한 교사로 RankGPT-4를 활용하면 RankGPT-4와의 격차를 크게 줄여 경쟁력 있는 결과를 얻는다.
  • RankZephyr는 다양한 1단계 검색기를 통해 일관되게 개선되며, 더 높은 품질의 후보 목록이 더 나은 재랭킹 결과로 이어진다.
  • NovelEval의 도메인 외 테스트에서 RankZephyr가 RankGPT-4를 능가하여 데이터 오염 문제를 해결하고 일반화 가능성을 보여준다.
  • 가변 윈도우 훈련은 서로 다른 입력 윈도우 크기와 후보 목록에서 강건성과 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.