Skip to main content
QUICK REVIEW

[论文解读] Transformer Memory as a Differentiable Search Index

Yi Tay, Vinh Q. Tran|arXiv (Cornell University)|Feb 14, 2022
Topic Modeling被引用 82
一句话总结

DSI 训练单个 Transformer,将查询直接映射到 docid,在模型参数中编码整个语料库,实现端到端检索,相比基线获得强劲提升,包括零样本性能。

ABSTRACT

In this paper, we demonstrate that information retrieval can be accomplished with a single Transformer, in which all information about the corpus is encoded in the parameters of the model. To this end, we introduce the Differentiable Search Index (DSI), a new paradigm that learns a text-to-text model that maps string queries directly to relevant docids; in other words, a DSI model answers queries directly using only its parameters, dramatically simplifying the whole retrieval process. We study variations in how documents and their identifiers are represented, variations in training procedures, and the interplay between models and corpus sizes. Experiments demonstrate that given appropriate design choices, DSI significantly outperforms strong baselines such as dual encoder models. Moreover, DSI demonstrates strong generalization capabilities, outperforming a BM25 baseline in a zero-shot setup.

研究动机与目标

  • 提出一种检索模型,使语料内容完全编码在模型参数中。
  • 探讨在 seq2seq Transformer 中如何表示文档和 docid 以实现索引与检索。
  • 在 Natural Questions 数据上评估 DSI 在模型规模和语料规模上的表现。

提出的方法

  • 将 Differentiable Search Index (DSI) 表述为一个 seq2seq 模型,学习文档到 docid 的关联(索引)以及查询到 docid 的映射(检索)。
  • 研究多种文档表示(直接表示、集合/倒排索引)以及多种 docid 表示(非结构化原子、简单字符串、语义结构化)。
  • 使用将索引和检索任务结合的多任务学习进行训练,采用基于 T5 的骨干网络。
  • 采用多种索引策略(Inputs2Targets、Targets2Inputs、Bidirectional、Span Corruption)和文档表示;并确定直接索引为有效。
  • 通过分层聚类探索语义化的 docid 构造,以生成语义结构化的标识符。
  • 与 BM25 与双编码器进行对比,并在无监督基线下测试零样本性能。

实验结果

研究问题

  • RQ1单个 Transformer 能否在不使用独立索引的情况下,存储语料信息并实现端到端检索?
  • RQ2不同的文档表示和 docid 表示如何影响检索性能与可扩展性?
  • RQ3模型规模与语料规模对 DSI 性能有何影响,多任务训练又如何影响结果?
  • RQ4DSI 在零样本检索中的表现如何,相较于 BM25 和无监督基线?

主要发现

  • DSI 在 NQ 的有监督微调下在所有数据集规模上均优于 BM25 和双编码器基线(在语义标识符方面,大数据集的 Hits@1 相对提升高达 +66%)。
  • 语义结构化的 docid 在所有 docid 表示中实现了最佳整体性能,原子型 docid 在零样本设置中表现最强。
  • 直接文档索引(32 个标记)结合 Inputs2Targets 索引通常提供强结果,而其他一些索引策略表现较差或失败。
  • 模型规模对 DSI 性能的提升比对双编码器更为稳定,语义 docid 的扩展性尤其有利。
  • 在若干配置下的零样本结果显示 DSI 超越 SentenceT5 和 BM25,特别是在原子型 docid 的情况下。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。