[논문 리뷰] Zero-shot Neural Retrieval via Domain-targeted Synthetic Query Generation.
이 논문은 일반 도메인 데이터로 미세조정된 사전 훈련된 쿼리 생성기로 도메인에 맞는 합성 쿼리-문서 쌍을 생성함으로써, 라벨이 없는 전용 도메인에서 효과적인 신경 적응 검색을 가능하게 하는 제로샷 신경 검색 프레임워크를 제안한다. 이러한 합성이지만 도메인 관련성이 높은 훈련 쌍을 활용함으로써, 전용 도메인에서 라벨 데이터가 필요 없이도 제로샷 설정에서 경쟁적인 성능을 달성할 수 있으며, 벤치마크 데이터셋에서 검증된 바 있다.
Deep neural scoring models have recently been shown to improve ranking quality on a number of benchmarks (Guo et al., 2016; Daiet al., 2018; MacAvaney et al., 2019; Yanget al., 2019a). However, these methods rely on underlying ad-hoc retrieval systems to generate candidates for scoring, which are rarely neural themselves (Zamani et al., 2018). Re-cent work has shown that the performance of ad-hoc neural retrieval systems can be competitive with a number of baselines (Zamani et al.,2018), potentially leading the way to full end-to-end neural retrieval. A major road-block to the adoption of ad-hoc retrieval models is that they require large supervised training sets to surpass classic term-based techniques, which can be developed from raw corpora. Previous work shows weakly supervised data can yield competitive results, e.g., click data (Dehghaniet al., 2017; Borisov et al., 2016). Unfortunately for many domains, even weakly supervised data can be scarce. In this paper, we pro-pose an approach to zero-shot learning (Xianet al., 2018) for ad-hoc retrieval models that relies on synthetic query generation. Crucially, the query generation system is trained on general domain data, but is applied to documents in the targeted domain. This allows us to create arbitrarily large, yet noisy, query-document relevance pairs that are domain targeted. On a number of benchmarks, we show that this is an effective strategy for building neural retrieval models for specialised domains.
연구 동기 및 목표
- 전용 도메인에서 적응 검색을 위한 라벨이 있는 훈련 데이터가 부족한 문제를 해결한다.
- 보통 희소한 전문 도메인에서 흔히 부족한 지도 학습 또는 약한 지도 학습 데이터에 의존하는 것을 완화한다.
- 목표 도메인에 맞게 조정된 합성 관련성 쌍을 생성함으로써 신경 검색 모델의 제로샷 학습을 가능하게 한다.
- 일반 도메인 모델에서 생성된 합성 데이터가 전용 도메인에서 고성능 검색 시스템을 효과적으로 훈련시킬 수 있음을 입증한다.
제안 방법
- 다양하고 타당한 쿼리를 생성하기 위해 일반 도메인 데이터(예: MS MARCO)로 쿼리 생성 모델을 훈련한다.
- 사전 훈련된 쿼리 생성기를 대상 도메인의 문서에 적용하여 합성 쿼리-문서 쌍을 생성한다.
- 합성 쿼리-문서 쌍을 약한 지도 신호로 사용하여 제로샷 설정에서 신경 적응 검색 모델을 훈련한다.
- 신경 스코링 함수를 활용하여 합성 관련성 쌍을 사용해 검색 모델을 미세조정한다.
- 도메인 관련성을 확보하기 위해 쿼리 생성기를 도메인 특화 문서에만 적용하여 맥락적 일치를 유지한다.
- 전이 학습 원리를 활용하여 일반 도메인 쿼리 생성기가 알려지지 않은 도메인의 타당한 쿼리를 생성하는 데 일반화될 수 있도록 한다.
실험 결과
연구 질문
- RQ1일반 도메인 쿼리 생성기에서 유도된 합성 쿼리-문서 쌍이 제로샷 설정에서 신경 검색 모델을 효과적으로 훈련시킬 수 있는가?
- RQ2합성 데이터로 훈련된 제로샷 신경 검색 모델의 성능이 전용 도메인에서 지도 기반 기준 모델과 비교해 어떻게 되는가?
- RQ3합성 쿼리의 품질이 최종 검색 모델의 성능에 얼마나 큰 영향을 미치는가?
- RQ4단일 일반 도메인 쿼리 생성기가 다양한 알려지지 않은 목표 도메인에 대해 충분히 유용한 쿼리를 생성할 수 있는가?
주요 결과
- 제안된 방법은 목표 도메인에서 라벨 데이터가 전혀 없이도 여러 벤치마크 데이터셋에서 경쟁적인 성능을 달성한다.
- 일반 도메인 모델에서 유도된 합성 쿼리-문서 쌍만으로도 제로샷 설정에서 강력한 기준 모델을 능가하는 신경 검색 모델을 훈련시킬 수 있다.
- 이 방법은 강력한 제로샷 일반화 성능을 보이며, 합성 데이터가 전용 도메인에서 실제 라벨 데이터를 효과적으로 대체할 수 있음을 보여준다.
- 특히 라벨 데이터가 희소하거나 이용할 수 없는 저자원 도메인에서 성능 향상이 두드러진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.