[논문 리뷰] Bridging the Gap Between Indexing and Retrieval for Differentiable Search Index with Query Generation
DSI-QG는 Differentiable Search Index에서 색인과 검색 간의 데이터 분포 불일치를 문서의 생성된 쿼리 집합으로 표현하고, 교차 인코더로 공동 순위를 매겨 색인 입력과 검색 입력을 정렬하여 단일 언어 및 다중 언어 검색 성능을 향상시킵니다.
The Differentiable Search Index (DSI) is an emerging paradigm for information retrieval. Unlike traditional retrieval architectures where index and retrieval are two different and separate components, DSI uses a single transformer model to perform both indexing and retrieval. In this paper, we identify and tackle an important issue of current DSI models: the data distribution mismatch that occurs between the DSI indexing and retrieval processes. Specifically, we argue that, at indexing, current DSI methods learn to build connections between the text of long documents and the identifier of the documents, but then retrieval of document identifiers is based on queries that are commonly much shorter than the indexed documents. This problem is further exacerbated when using DSI for cross-lingual retrieval, where document text and query text are in different languages. To address this fundamental problem of current DSI models, we propose a simple yet effective indexing framework for DSI, called DSI-QG. When indexing, DSI-QG represents documents with a number of potentially relevant queries generated by a query generation model and re-ranked and filtered by a cross-encoder ranker. The presence of these queries at indexing allows the DSI models to connect a document identifier to a set of queries, hence mitigating data distribution mismatches present between the indexing and the retrieval phases. Empirical results on popular mono-lingual and cross-lingual passage retrieval datasets show that DSI-QG significantly outperforms the original DSI model.
연구 동기 및 목표
- DSI 색인화(긴 문서)와 검색(짧은 쿼리) 간 데이터 분포 불일치를 식별한다.
- 문서를 생성된 쿼리로 표현하는 색인 프레임워크(DSI-QG)를 제안하여 색인 입력과 검색 입력을 정렬한다.
- 다중 언어 쿼리 생성을 가능하게 하여 다중 언어 검색 성능을 향상시킨다.
- DSI-QG가 원래 DSI 및 다른 벤치마크 대비 단일 언어 및 다중 언어 데이터셋에서 유의하게 더 나은 성능을 보임을 입증한다.
제안 방법
- 각 문서에 대해 잠재적으로 관련 쿼리의 집합을 생성하기 위해 쿼리 생성 모델을 사용한다.
- 생성된 쿼리를 교차 인코더 랭커로 랭크하고 상위-m 개의 쿼리를 선택하여 색인 시 문서를 표현한다.
- 각 문서의 생성된 쿼리와 문서 ID를 연결시키도록 DSI 모델을 학습한다.
- 다국어 T5를 통해 다중 언어 쿼리 생성을 지원하는 다중 언어 쿼리 생성을 선택적으로 적용한다.
- 색인 과정에서 문서를 상위-m 생성 쿼리로 대체하여 입력 분포가 검색 시의 쿼리와 일치하도록 한다.
- mono- 언어(NQ 320k) 및 다중 언어(XOR QA 100k) 데이터셋에서 표준 IR 지표를 사용하여 평가한다.
실험 결과
연구 질문
- RQ1DSI 색인에서 문서를 생성된 쿼리로 대체하는 것이 색인과 검색 사이의 데이터 분포 드리프트를 감소시키는가?
- RQ2DSI-QG가 단일 언어 검색 태스크에서 원래 DSI 및 다른 벤치마크에 비해 어떤 성능을 보이나?
- RQ3다중 언어 쿼리 생성을 통해 DSI-QG로 다중 언어 검색 성능이 향상될 수 있는가?
- RQ4생성 쿼리의 수(m)와 교차 인코더 순위 단계가 성능에 미치는 영향은 무엇인가?
- RQ5생성된 쿼리의 정성적 특성은 무엇이며 검색에 어떤 영향을 미치는가?
주요 결과
- DSI-QG는 mono-lingual NQ 320k에서 원래 DSI보다 상당한 성능 향상을 보이며, Hits@1 및 Hits@10에서 모델 크기에 따라 큰 이득을 보인다(예: DSI-QG-base 및 DSI-QG-large가 DSI-base 및 DSI-large에 비해 큰 개선을 보임).
- mono-lingual 검색의 경우 DSI-QG with T5-base가 Hits@1 63.49, Hits@10 82.36를 달성하는 반면, DSI-base는 크게 뒤처진다.
- cross-encoder 랭킹 및 top-m 쿼리 선택이 XOR QA 100k에서 언어 간 강건한 이득을 제공하며, 대부분의 경우 DSI-QG가 언어별로 가장 높은 Hits@1을 달성한다.
- 다중 언어 쿼리 생성을 통해 문서와 쿼리 간의 언어 간 차이를 줄이고 원래 DSI에서 관찰된 데이터 분포 불일치와 언어 불일치 효과를 완화한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.