Skip to main content
QUICK REVIEW

[논문 리뷰] Embedding-based Zero-shot Retrieval through Query Generation

Davis Liang, Peng Xu|arXiv (Cornell University)|2020. 09. 22.
Topic Modeling참고 문헌 41인용 수 24
한 줄 요약

이 논문은 레이블이 없는 데이터에 의존하지 않고 임베딩 기반의 두 타워 신경망 모델을 훈련하기 위해 합성 쿼리 생성을 사용하는 제로샷 검색 방법을 제안한다. 위키백과 문단에서 고품질의 합성 쿼리를 생성하기 위해 MSMARCO에서 BART를 미세조정함으로써, 이 모델은 제로샷 성능에서 최신 기술 수준을 달성하였으며, BM25보다 평균 Recall@1에서 2.45점 높고, 일부 경우에서는 실제 데이터로 미세조정된 모델을 능가한다.

ABSTRACT

Passage retrieval addresses the problem of locating relevant passages, usually from a large corpus, given a query. In practice, lexical term-matching algorithms like BM25 are popular choices for retrieval owing to their efficiency. However, term-based matching algorithms often miss relevant passages that have no lexical overlap with the query and cannot be finetuned to downstream datasets. In this work, we consider the embedding-based two-tower architecture as our neural retrieval model. Since labeled data can be scarce and because neural retrieval models require vast amounts of data to train, we propose a novel method for generating synthetic training data for retrieval. Our system produces remarkable results, significantly outperforming BM25 on 5 out of 6 datasets tested, by an average of 2.45 points for Recall@1. In some cases, our model trained on synthetic data can even outperform the same model trained on real data

연구 동기 및 목표

  • 신경 파assage 검색에서 레이블이 있는 훈련 데이터의 부족 문제, 특히 제로샷 설정에서의 문제를 해결하기 위해.
  • 백어워드 매칭 방법인 BM25가 비일치하는 쿼리에서 실패하는 것과 같은 문제를 넘어서 제로샷 검색 성능을 향상시키기 위해.
  • 목표 데이터셋을 위한 도메인 특화 합성 쿼리를 생성함으로써 효과적인 비지도 도메인 적응을 가능하게 하기 위해.
  • 대규모 사전 훈련된 데이터에서 유래한 합성 데이터가 일부 경우에서 실제 데이터를 능가할 수 있음을 보여주기 위해.
  • 오직 레이블이 없는 코퍼스만을 사용하여도 스케일이 가능하고 자원 효율적인 신경 검색 모델 훈련 방법을 확립하기 위해.

제안 방법

  • MSMARCO의 양성 쿼리-패스제어 쌍을 기반으로 사전 훈련된 BART 모델을 미세조정하여 쿼리 생성(QG)을 수행한다.
  • 미세조정된 QG 모델을 사용해 영어 위키백과의 모든 패스제어에 대해 고용량의 합성 검색 데이터셋을 생성하며, 이를 WikiGQ로 명명한다.
  • 합성된 WikiGQ 데이터를 사용하여 두 타워 시아모이 신경망을 훈련시키며, 쿼리와 패스제어에 대해 별도의 인코더를 사용한다.
  • 사전 훈련된 모델을 기반으로 하여, 하류 데이터셋의 공식 훈련 세트만을 사용해 모델을 미세조정한다.
  • 목표 도메인 데이터셋(예: InsuranceQA, BioASQ)에 동일한 QG 모델을 적용하여, 해당 도메인에 특화된 합성 데이터를 생성하고, 이를 추가로 미세조정에 활용한다.
  • 다양한 제로샷 및 도메인 내 검색 벤치마크에서 표준 정보 검색 메트릭(예: Recall@1, Recall@10, Recall@100)을 사용해 성능을 평가한다.

실험 결과

연구 질문

  • RQ1위키백과와 같은 대규모 비라벨링 코퍼스에서 유래한 합성 쿼리 생성이 고품질의 훈련 데이터를 생성할 수 있으며, 이로 인해 강력한 제로샷 검색 성능을 달성할 수 있는가?
  • RQ2위키백과에서 유래한 합성 데이터로 사전 훈련하면, 다양한 하류 데이터셋(비위키백과 도메인 포함)에서 제로샷 성능이 향상되는가?
  • RQ3목표 도메인 텍스트에서 유래한 도메인 특화 합성 쿼리는 비지도 도메인 적응을 통해 검색 성능을 추가로 향상시킬 수 있는가?
  • RQ4합성 데이터 훈련이 실제 데이터 훈련보다 더 샘플 효율적이며, 레이블이 있는 데이터의 필요성을 줄일 수 있는가?
  • RQ5일부 설정에서는 순수하게 합성 데이터로 훈련된 모델이 실제 인간이 애너테이션한 데이터로 미세조정된 동일한 모델보다 성능이 뛰어나지 않는가?

주요 결과

  • 합성 WikiGQ 데이터로 미세조정된 모델은 여섯 개의 데이터셋에서 평균 Recall@1에서 BM25보다 2.45점 높은 성능을 기록했다.
  • Natural Questions 데이터셋에서, 합성 데이터로 훈련된 모델은 48.57%의 Recall@1을 달성했으며, 사전 훈련 없이 미세조정된 모델의 40.78% Recall@1을 뛰어넘었다.
  • 비위키백과 도메인인 InsuranceQA의 경우, WikiGQ로 사전 훈련한 후 Recall@1이 34.33%로 상승했고, 사전 훈련 없이 훈련한 경우 30.82%였던 것과 비교해 성능 향상을 보였다.
  • 합성 데이터셋 크기가 커질수록 성능이 단조롭게 향상되었으며, 400만 개 패스제어를 초과하면 수익 감소 현상이 나타났다.
  • BioASQ나 InsuranceQA와 같은 특정 도메인에서의 합성 쿼리로 미세조정하면, 해당 도메인의 성능이 추가로 향상되었다.
  • 일부 사례에서는 합성 데이터로만 훈련된 모델이 실제 인간 애너테이션 데이터로 미세조정된 동일한 모델보다 성능이 뛰어나, 합성 지도의 품질을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.