QUICK REVIEW

[논문 리뷰] Unsupervised Dense Information Retrieval with Contrastive Learning

Gautier Izacard, Mathilde Caron|arXiv (Cornell University)|2021. 12. 16.

Domain Adaptation and Few-Shot Learning인용 수 145

한 줄 요약

이 논문은 대조 학습을 사용한 비지도 밀집 검색기(Contriever)를 MoCo 스타일 음수 큐와 임의 잘라내기(random cropping)로 학습시켜 제로샷 및 소수샷 검색에서 강력한 성능과 다중 언어 전이 능력을 달성하고 BEIR에서 BM25와 경쟁력을 보인다.

ABSTRACT

Recently, information retrieval has seen the emergence of dense retrievers, using neural networks, as an alternative to classical sparse methods based on term-frequency. These models have obtained state-of-the-art results on datasets and tasks where large training sets are available. However, they do not transfer well to new applications with no training data, and are outperformed by unsupervised term-frequency methods such as BM25. In this work, we explore the limits of contrastive learning as a way to train unsupervised dense retrievers and show that it leads to strong performance in various retrieval settings. On the BEIR benchmark our unsupervised model outperforms BM25 on 11 out of 15 datasets for the Recall@100. When used as pre-training before fine-tuning, either on a few thousands in-domain examples or on the large MS~MARCO dataset, our contrastive model leads to improvements on the BEIR benchmark. Finally, we evaluate our approach for multi-lingual retrieval, where training data is even scarcer than for English, and show that our approach leads to strong unsupervised performance. Our model also exhibits strong cross-lingual transfer when fine-tuned on supervised English data only and evaluated on low resources language such as Swahili. We show that our unsupervised models can perform cross-lingual retrieval between different scripts, such as retrieving English documents from Arabic queries, which would not be possible with term matching methods.

연구 동기 및 목표

라벨링된 데이터 없이도 우수한 성능을 발휘하는 비지도 밀집 검색기의 필요성을 제기한다.
정렬되지 않은 텍스트를 사용하여 검색을 위한 바이-인코더를 학습시키기 위한 대조 학습 프레임워크를 제안한다.
단일 문서에서 독립적 잘라내기를 통한 양성 쌍 구성과 큰 음수 풀(pool)이 BEIR 및 QA 데이터셋에서 경쟁력 있는 결과를 낳는지 보여준다.
다국어 및 교차 언어 검색 능력과 미세조정 전에 사전 학습의 이점을 입증한다.

제안 방법

쿼리와 문서를 독립적으로 인코딩하기 위해 공유 인코더 f_theta를 사용하는 바이-인코더 아키텍처를 사용한다.
양성 쌍을 함께 끌어당기고 음성을 멀리 밀어내는 대조적 InfoNCE 손실을 적용한다.
개별 문서에서 독립적 잘라내기(임의 토큰 범위) 및 선택적 증강(삭제, 마스킹, 대체)을 통해 양성 쌍을 구성한다.
키에 모멘텀 인코더를 사용하는 MoCo 스타일 음수 샘플링과 이전 배치에서의 음수 큐를 활용한다.
사전 학습을 위한 대규모 비지도 말뭉치로 위키피디아와 CCNet 데이터를 사용한다.
무감독으로 제로샷 및 소수-shot 설정에서 평가하고, MS MARCO에서 미세조정하기 전의 사전 학습 역할을 연구한다.

실험 결과

연구 질문

RQ1대조 학습이 라벨이 없는 데이터로도 효과적인 비지도 밀집 검색기를 학습시킬 수 있는가?
RQ2양성-쌍 구성 방법(잘라내기 대 ICT)이 검색 성능에 어떻게 영향을 미치는가?
RQ3대규모 비지도 사전 학습이 BEIR 스타일 제로샷 검색 및 다국어/Mr. TyDi 작업에 어떤 이점을 주는가?
RQ4비지도 사전 학습은 감독 사전 학습에 비해 소수 샷 적응에서 어떤 차이가 있는가?
RQ5타깃 언어의 데이터가 부족할 때 다국어 사전 학습 및 교차 언어 검색의 영향은 무엇인가?

주요 결과

Contriever가 제로샷 평가에서 BEIR의 11개 중 15개 데이터셋에서 BM25와 경쟁력 있는 Recall@100을 달성한다.
사전 학습으로서 대조 학습은 MS MARCO에서 미세조정한 후 BEIR에서 nDCG@10 및 Recall@100을 향상시키며 해당 설정에서 밀집 바이-인코더 중 최첨단 Recall@100를 달성한다.
소수 샷 설정에서 비지도 사전 학습이 MS MARCO 미세조정에 따른 BERT를 능가하는 성능을 보이며 강력한 소수 샷 적응을 시사한다.
다국어 사전 학습(mContriever)이 29개 언어에 걸쳐 교차 언어 검색을 가능하게 하고 영어 데이터로 미세조정할 때에도 강력한 성능을 발휘한다.
비영어 쿼리에서 영어 문서를 검색하거나 교차 문자 스크립트 검색(예: 아랍어 쿼리에서 영어 문서로의 검색)을 포함한 교차 언어 검색이 시연된다.
대조 학습 후 MS MARCO 미세조정을 수행하면 여러 언어에 걸쳐 MS MARCO 기반 지표가 상승하고 BEIR 성능도 경쟁력을 갖춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.