Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

Luyu Gao, Jamie Callan|arXiv (Cornell University)|2021. 08. 12.
Topic Modeling인용 수 54
한 줄 요약

coCondenser는 비지도적 말뭉치 인식 대비 목표를 가진 Condenser 기반 언어 모델을 사전 학습하여 밀집 검색을 위한 강건한 임베딩 공간을 만들고, 미세 조정 데이터 엔지니어링과 대형 배치 요구를 줄이면서 경쟁력 있는 성능을 달성합니다.

ABSTRACT

Recent research demonstrates the effectiveness of using fine-tuned language models~(LM) for dense retrieval. However, dense retrievers are hard to train, typically requiring heavily engineered fine-tuning pipelines to realize their full potential. In this paper, we identify and address two underlying problems of dense retrievers: i)~fragility to training data noise and ii)~requiring large batches to robustly learn the embedding space. We use the recently proposed Condenser pre-training architecture, which learns to condense information into the dense vector through LM pre-training. On top of it, we propose coCondenser, which adds an unsupervised corpus-level contrastive loss to warm up the passage embedding space. Retrieval experiments on MS-MARCO, Natural Question, and Trivia QA datasets show that coCondenser removes the need for heavy data engineering such as augmentation, synthesis, or filtering, as well as the need for large batch training. It shows comparable performance to RocketQA, a state-of-the-art, heavily engineered system, using simple small batch fine-tuning.

연구 동기 및 목표

  • 밀집 검색기(Dense retrievers)가 학습 데이터 노이즈에 취약하고 학습 중에 큰 배치가 필요한 이유를 조사한다.
  • 밀집 검색을 위한 강건한 임베딩 공간을 구축하는 말뭉치 인식 사전 학습 접근법을 제안한다.
  • 노이즈에 대한 내성을 높이고 말뭉치 수준의 대비 손실을 도입하기 위해 Condenser 아키텍처를 활용한다.
  • 비지도 사전 학습이 고도로 엔지니어링된 미세 조정 파이프라인에 필적할 수 있음을 보여준다.
  • 타깃 말뭉치에서의 사전 학습이 효과적인 소규모 배치 미세 조정을 가능하게 함을 보여준다.

제안 방법

  • 강건한 CLS 기반 밀집 표현을 생성하기 위해 Condenser 사전 학습 아키텍처를 기반으로 한다.
  • 감독 없이 MLM과 대비 목표를 함께 학습하도록 코Condenser(코콘덴서)라는 말뭉치 수준 대비 손실을 추가한다.
  • 대상 대비 손실의 증강으로 문서의 span 수준 샘플링을 사용하고(SimCLR 스타일) 이진 교차-문서 음수 샘플링을 정의한다.
  • 자원 제한된 하드웨어에서 메모리 효율적인 대형 배치 대비 사전 학습을 가능하게 하기 위해 그래디언트 캐싱을 사용한다.
  • 사전 학습 후 Condenser 헤드를 제거하고 백본을 이중 인코더로 미세 조정하며 대상 작업에서 감독된 대비 손실을 사용한다.
  • 첫 번째 라운드에서 BM25 음수를 사용하고 두 번째 라운드에서 첫 번째 라운드에서 채굴한 하드 음수를 활용하는 두 라운드 미세 조정 regime를 따른다.

실험 결과

연구 질문

  • RQ1말뭉치 인식의 비지도 사전 학습이 밀집 검색 미세 조정에서의 대규모 데이터 엔지니어링 필요성을 줄일 수 있는가?
  • RQ2말뭉치 수준 대비 목표가 구문(global) 임베딩 공간을 더 효과적으로 형성하는 데 도움이 되는가?
  • RQ3말뭉치 인식 사전 학습 후 소규모 배치 미세 조정으로도 경쟁력 있는 성능을 달성할 수 있는가?
  • RQ4MS-MARCO, Natural Questions, TriviaQA 전반에서 coCondenser가 RocketQA 및 다른 기준선들과 어떻게 비교되는가?
  • RQ5일반 하드웨어에서 coCondenser를 학습시키기 위한 메모리 효율적인 기법은 무엇인가?

주요 결과

  • coCondenser는 소규모 배치 미세 조정으로 경쟁력 있는 성능을 달성하여 여러 기준선에 근접하거나 이를 상회한다.
  • coCondenser는 데이터 증강, 노이즈 제거 및 대형 배치 학습의 필요성을 줄이면서도 성능이 우수하다.
  • 타깃 말뭉치(Wikipedia 또는 MS-MARCO)에서의 사전 학습은 DPR-PAQ와 같은 더 큰 준감독적 사전 학습 접근법과 비슷하거나 비하여 이익을 낸다.
  • 대비 말뭉치 인식 목표가 전역 임베딩 공간과 노이즈에 대한 강건성을 개선하여 데이터셋 전반의 재현율을 높인다.
  • 그래디언트 캐싱은 성능 손실 없이 제한된 하드웨어에서 메모리 효율적인 대형 배치 대비 사전 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.