QUICK REVIEW

[논문 리뷰] Embedding-based Zero-shot Retrieval through Query Generation

Davis Liang, Peng Xu|arXiv (Cornell University)|2020. 09. 22.

Topic Modeling참고 문헌 41인용 수 24

한 줄 요약

이 논문은 레이블이 없는 데이터에 의존하지 않고 임베딩 기반의 두 타워 신경망 모델을 훈련하기 위해 합성 쿼리 생성을 사용하는 제로샷 검색 방법을 제안한다. 위키백과 문단에서 고품질의 합성 쿼리를 생성하기 위해 MSMARCO에서 BART를 미세조정함으로써, 이 모델은 제로샷 성능에서 최신 기술 수준을 달성하였으며, BM25보다 평균 Recall@1에서 2.45점 높고, 일부 경우에서는 실제 데이터로 미세조정된 모델을 능가한다.

ABSTRACT

Passage retrieval addresses the problem of locating relevant passages, usually from a large corpus, given a query. In practice, lexical term-matching algorithms like BM25 are popular choices for retrieval owing to their efficiency. However, term-based matching algorithms often miss relevant passages that have no lexical overlap with the query and cannot be finetuned to downstream datasets. In this work, we consider the embedding-based two-tower architecture as our neural retrieval model. Since labeled data can be scarce and because neural retrieval models require vast amounts of data to train, we propose a novel method for generating synthetic training data for retrieval. Our system produces remarkable results, significantly outperforming BM25 on 5 out of 6 datasets tested, by an average of 2.45 points for Recall@1. In some cases, our model trained on synthetic data can even outperform the same model trained on real data

연구 동기 및 목표

신경 파assage 검색에서 레이블이 있는 훈련 데이터의 부족 문제, 특히 제로샷 설정에서의 문제를 해결하기 위해.
백어워드 매칭 방법인 BM25가 비일치하는 쿼리에서 실패하는 것과 같은 문제를 넘어서 제로샷 검색 성능을 향상시키기 위해.
목표 데이터셋을 위한 도메인 특화 합성 쿼리를 생성함으로써 효과적인 비지도 도메인 적응을 가능하게 하기 위해.
대규모 사전 훈련된 데이터에서 유래한 합성 데이터가 일부 경우에서 실제 데이터를 능가할 수 있음을 보여주기 위해.
오직 레이블이 없는 코퍼스만을 사용하여도 스케일이 가능하고 자원 효율적인 신경 검색 모델 훈련 방법을 확립하기 위해.

제안 방법

MSMARCO의 양성 쿼리-패스제어 쌍을 기반으로 사전 훈련된 BART 모델을 미세조정하여 쿼리 생성(QG)을 수행한다.
미세조정된 QG 모델을 사용해 영어 위키백과의 모든 패스제어에 대해 고용량의 합성 검색 데이터셋을 생성하며, 이를 WikiGQ로 명명한다.
합성된 WikiGQ 데이터를 사용하여 두 타워 시아모이 신경망을 훈련시키며, 쿼리와 패스제어에 대해 별도의 인코더를 사용한다.
사전 훈련된 모델을 기반으로 하여, 하류 데이터셋의 공식 훈련 세트만을 사용해 모델을 미세조정한다.
목표 도메인 데이터셋(예: InsuranceQA, BioASQ)에 동일한 QG 모델을 적용하여, 해당 도메인에 특화된 합성 데이터를 생성하고, 이를 추가로 미세조정에 활용한다.
다양한 제로샷 및 도메인 내 검색 벤치마크에서 표준 정보 검색 메트릭(예: Recall@1, Recall@10, Recall@100)을 사용해 성능을 평가한다.

실험 결과

연구 질문

RQ1위키백과와 같은 대규모 비라벨링 코퍼스에서 유래한 합성 쿼리 생성이 고품질의 훈련 데이터를 생성할 수 있으며, 이로 인해 강력한 제로샷 검색 성능을 달성할 수 있는가?
RQ2위키백과에서 유래한 합성 데이터로 사전 훈련하면, 다양한 하류 데이터셋(비위키백과 도메인 포함)에서 제로샷 성능이 향상되는가?
RQ3목표 도메인 텍스트에서 유래한 도메인 특화 합성 쿼리는 비지도 도메인 적응을 통해 검색 성능을 추가로 향상시킬 수 있는가?
RQ4합성 데이터 훈련이 실제 데이터 훈련보다 더 샘플 효율적이며, 레이블이 있는 데이터의 필요성을 줄일 수 있는가?
RQ5일부 설정에서는 순수하게 합성 데이터로 훈련된 모델이 실제 인간이 애너테이션한 데이터로 미세조정된 동일한 모델보다 성능이 뛰어나지 않는가?

주요 결과

합성 WikiGQ 데이터로 미세조정된 모델은 여섯 개의 데이터셋에서 평균 Recall@1에서 BM25보다 2.45점 높은 성능을 기록했다.
Natural Questions 데이터셋에서, 합성 데이터로 훈련된 모델은 48.57%의 Recall@1을 달성했으며, 사전 훈련 없이 미세조정된 모델의 40.78% Recall@1을 뛰어넘었다.
비위키백과 도메인인 InsuranceQA의 경우, WikiGQ로 사전 훈련한 후 Recall@1이 34.33%로 상승했고, 사전 훈련 없이 훈련한 경우 30.82%였던 것과 비교해 성능 향상을 보였다.
합성 데이터셋 크기가 커질수록 성능이 단조롭게 향상되었으며, 400만 개 패스제어를 초과하면 수익 감소 현상이 나타났다.
BioASQ나 InsuranceQA와 같은 특정 도메인에서의 합성 쿼리로 미세조정하면, 해당 도메인의 성능이 추가로 향상되었다.
일부 사례에서는 합성 데이터로만 훈련된 모델이 실제 인간 애너테이션 데이터로 미세조정된 동일한 모델보다 성능이 뛰어나, 합성 지도의 품질을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.